Marco Rendina: Chcete-li začít konverzaci, můžete nám přesně říci, co je analýza obsahu obrazu?
Henk Vanstappen: Analýza obrazového obsahu, známá také jako vizuální analýza, je proces extrakce informací z digitálních obrazů. Využívá sofistikované techniky a algoritmy k analýze různých aspektů obrazu, jako jsou objekty, vzory, barvy, textury a tvary. Tato technologie je využívána v mnoha oblastech, od lékařské diagnostiky až po kamerový dohled.
MR: Jaký význam to má pro odvětví kulturního dědictví?
HV: V kulturním dědictví se často setkáváme s rozsáhlými sbírkami digitálních obrazů s minimálními metadaty o jejich skutečném obsahu. Představte si rozsáhlý archiv fotografií, kde jsou zaznamenány pouze datum a fotograf. Pro průměrného uživatele by navigování a vyhledávání v takové sbírce bez textových informací bylo náročným úkolem. Analýza obrazu může automatizovat detekci objektů, klasifikovat obrázky do smysluplných skupin (například obrázky obsahující osoby) a další, čímž se tyto sbírky stanou přístupnějšími. Několik dobrých příkladů toho, čeho lze dosáhnout, najdete v další řadě zpravodajských příspěvků na Europeaně Pro.
MR: Chápu, že pro projekt AI4Culture byl vyvinut nástroj pro detekci objektů - co nám o něm můžete říct?
HV: Jedná se o nástroj pro detekci objektů a objektů. Detekce objektů identifikuje fyzické objekty v obraze, například železniční stanici nebo šaty. Detekce subjektu určuje širší předmět, jako je "architektura", "doprava" nebo "móda". Tento nástroj je k dispozici v různých "chutí", aby vyhovoval různým případům použití.
MR: Líbí se mi myšlenka, že digitální nástroj má „příchutě“ – zní to velmi přístupně. Co jsou tyto vícenásobné "příchutě"?
HV: Chtěli jsme poskytnout nejvhodnější nástroj pro různé scénáře. Základní „příchuť“ obsahuje vysokorychlostní jednoduchý nástroj pro detekci objektů, který používá model MobileNet-SSD v3. Je schopen rozpoznat běžné předměty, jako jsou auta, letadla nebo lidé – můžete jej například použít k promítání sbírek obrázků za účelem odhalení obsahu citlivého na soukromí.
Druhý nástroj, který je součástí služby, využívá sofistikovaný generativní model umělé inteligence (Salesforce / blip-vqa-base),který dokáže pochopit a zodpovědět otázky týkající se obsahu obrázku, podobně jako ChatGPT pracuje s textem. I když je pokročilejší než základní verze, nemůže určit umístění objektu v obraze.
Třetí možnost v balíčku využívá službu Vision společnosti Google, která nabízí ještě větší detekční schopnosti. Jako komerční služba však vyžaduje uživatelský účet v cloudu Google Cloud, což je cloudová služba nabízející detekci objektů, takže je vhodnější pro pokročilé použití.
MR: K dispozici je také nástroj pro detekci barev. Co dělá barevnou analýzu významnou?
HV: Barva je klíčovým aspektem některých kolekcí, jako jsou ty, které se týkají designu a módy. Definování barev je velmi subjektivní proces. Zatímco lidské oko dokáže rozpoznat šperk jako zlato nebo měď, počítač ho může jednoduše vnímat jako žlutý. Také pro počítač jsou barvy obrazu ovce na louce jen "bílé" a "zelené". Takže jsme vytvořili algoritmy, které dokáží izolovat objekty od pozadí a přesně identifikovat jejich barvy.
MR: Obsahuje tento nástroj také detekci objektů?
HV: Ano, to jsem já. Zatímco nástroj může automaticky izolovat objekty, uživatelé mohou také pomoci zadáním oblasti, kde je objekt umístěn. Tímto způsobem můžete využít výstup z nástroje pro detekci objektů k získání barev více objektů v rámci jednoho obrazu, pokud je přítomen.
MR: A přichází nástroj pro detekci objektů také v různých příchutích?
HV: Vskutku. První verze počítá pixely detekovaného objektu, seskupuje je do barev a vrací podíl každé barvy v procentech. Druhá verze používá stejný generativní model AI jako nástroj pro detekci objektů, který poskytuje lidštější interpretaci barev. Neposkytuje však přesné barevné proporce, místo toho vrací omezenou sadu tří nebo čtyř dominantních barev na objekt.
MR: To je celkem obsáhlé. Vytvářejí tyto nástroje výstupy pouze v angličtině?
HV: Vůbec ne. Nástroje také poskytují odkazy na Wikidata, rozsáhlou znalostní základnu, která pohání Wikipedii (viz například identifikátor pojmu "šaty"). To umožňuje uživatelům přístup k názvům barev a objektů prakticky v jakémkoli jazyce podporovaném Wikidaty, což zlepšuje přístupnost nástrojů v různých jazykových komunitách.
MR: Existují s takovou pokročilou technologií etické obavy týkající se budoucnosti? Mohla by analýza obrazu nakonec nahradit lidské odborníky?
HV: I když se technologie stále vyvíjí a stává se sofistikovanější, je nepravděpodobné, že by v blízké době zcela nahradila lidské odborné znalosti. Algoritmy, i když silné, nejsou neomylné, stejně jako lidská analýza může být někdy subjektivní. Tyto nástroje řízené umělou inteligencí však nabízejí významné výhody: jsou pozoruhodně rychlé, důsledné a neochvějné ve svém zaměření na opakující se úkoly. V konečném důsledku slouží jako cenný doplněk k lidským odborníkům, což jim umožňuje věnovat svůj čas diferencovanějším a kreativnějším snahám a zároveň využívat umělou inteligenci pro rozsáhlé zpracování dat.
MR: Jak těžké je pro uživatele pracovat s těmito nástroji?
HV: Pro zájemce o prozkoumání schopností těchto nástrojů jsme vyvinuli základní grafické rozhraní pro detekci barev a nástroj pro detekci objektů, kde mohou uživatelé zadávat adresu URL online obrázku a testovat různé příchutě a nastavení. Tento webový nástroj nevyžaduje žádnou instalaci v počítači uživatele, i když je k dispozici také možnost jej stáhnout a spustit lokálně. Aby však bylo možné integrovat tyto nástroje do stávajících databází a zpracovat velké množství obrázků, bude zapotřebí určité odborné znalosti v oblasti programování. Pro takové pokročilé případy použití jsme na naší stránce GitHubu poskytli komplexní dokumentaci, která vývojáře hladce provede integračním procesem.
Zjistit více
V září 2024 spustí projekt AI4Culture platformu, kde budou na internetu zpřístupněny otevřené nástroje, jako jsou výše uvedené detekční nástroje, spolu se související dokumentací a školicími materiály. Sledujte stránku projektu na Europeana Pro pro více podrobností a zůstaňte naladěni na projekt LinkedIn a X účet!
Nástroj pro detekci objektů a objektů je rovněž integrován do platformy pro agregaci MINT a uživatelům je nabízen jako služba s přidanou hodnotou připravená k použití. Grafické uživatelské rozhraní umožňuje uživatelům MINT obohatit svá metadata o anotace extrahované nástrojem pro analýzu obrazu pomocí několika kliknutí. Pokud máte zájem využít této nově přidané funkce MINT, můžete sledovat tento výukový video návod.
