Marco Rendina: Ak chcete začať konverzáciu, môžete nám povedať, čo presne je analýza obsahu obrázkov?
Henk Vanstappen: Analýza obsahu obrazu, tiež známa ako vizuálna analýza, je proces extrakcie informácií z digitálnych obrázkov. Využíva sofistikované techniky a algoritmy na analýzu rôznych aspektov obrazu, ako sú objekty, vzory, farby, textúry a tvary. Táto technológia sa využíva v mnohých oblastiach, od lekárskej diagnostiky až po video dohľad.
MR: Ako to súvisí s odvetvím kultúrneho dedičstva?
HV: V oblasti kultúrneho dedičstva sa často stretávame s rozsiahlymi zbierkami digitálnych obrázkov s minimálnymi metaúdajmi o ich skutočnom obsahu. Predstavte si rozsiahly archív fotografií, kde sa zaznamenáva len dátum a fotograf. Pre priemerného používateľa by bolo navigovanie a vyhľadávanie v takejto zbierke bez textových informácií náročnou úlohou. Analýza obrázkov môže automatizovať detekciu objektov, klasifikovať obrázky do zmysluplných skupín (napríklad obrázky obsahujúce ľudí) a ďalšie, čím sa tieto zbierky stávajú prístupnejšími. Niekoľko dobrých príkladov toho, čo možno dosiahnuť, nájdete v ďalšej sérii spravodajských príspevkov na portáli Europeana Pro.
MR: Chápem, že pre projekt AI4Culture bol vyvinutý nástroj na detekciu objektov - čo nám o tom môžete povedať?
HV: Je to nástroj na detekciu objektov a objektov. Detekcia objektov identifikuje fyzické objekty v obraze, ako je železničná stanica alebo šaty. Detekcia predmetu určuje širší predmet, ako napríklad "architektúra", "premávka" alebo "móda". Tento nástroj je k dispozícii v rôznych "príchutiach" na riešenie rôznych prípadov použitia.
MR: Páči sa mi táto myšlienka digitálneho nástroja s „arómami“ – znie veľmi prístupne. Aké sú tieto rôzne "príchute"?
HV: Chceli sme poskytnúť najvhodnejší nástroj pre rôzne scenáre. Základná „chuť“ obsahuje vysokorýchlostný jednoduchý nástroj na detekciu objektov, ktorý využíva model MobileNet-SSD v3. Je schopný rozpoznať bežné predmety, ako sú autá, lietadlá alebo ľudia – mohli by ste ho napríklad použiť na prezeranie zbierok obrázkov s cieľom odhaliť obsah citlivý na súkromie.
Druhý nástroj balený v službe využíva sofistikovaný model generatívnej umelej inteligencie (Salesforce/blip-vqa-base),ktorý dokáže pochopiť a odpovedať na otázky týkajúce sa obsahu obrázka, podobne ako ChatGPT pracuje s textom. Hoci je pokročilejšia ako základná verzia, nedokáže určiť umiestnenie objektu v rámci obrázka.
Tretia možnosť v balíku využíva službu Google Vision, ktorá ponúka ešte väčšie možnosti detekcie. Ako komerčná služba však vyžaduje používateľský účet v službe Google Cloud, čo je cloudová služba ponúkajúca detekciu objektov, vďaka čomu je vhodnejšia na pokročilé používanie.
MR: K dispozícii je aj nástroj na detekciu farieb. Čo robí farebnú analýzu významnou?
HV: Farba je kľúčovým aspektom niektorých kolekcií, napríklad tých, ktoré súvisia s dizajnom a módou. Definovanie farieb je však veľmi subjektívny proces. Zatiaľ čo ľudské oko dokáže rozoznať šperk ako zlato alebo meď, počítač ho môže jednoducho vnímať ako žltý. Aj pre počítač sú farby obrazu ovce na lúke len "biele" a "zelené". Preto sme vytvorili algoritmy, ktoré dokážu izolovať objekty od pozadia a presne identifikovať ich farby.
MR: Zahŕňa tento nástroj aj detekciu objektov?
HV: Áno. Zatiaľ čo nástroj môže automaticky izolovať objekty, používatelia môžu tiež pomôcť zadaním oblasti, v ktorej sa objekt nachádza. Týmto spôsobom môžete využiť výstup z nástroja na detekciu objektov na získanie farieb viacerých objektov v rámci jedného obrázka, ak je prítomný.
MR: A prichádza aj nástroj na detekciu objektov v rôznych príchutiach?
HV: Skutočne. Prvá verzia spočíta pixely zisteného objektu, zoskupí ich do farieb a vráti percentuálny podiel každej farby. Druhá verzia používa rovnaký model generatívnej umelej inteligencie ako nástroj na detekciu objektov, ktorý poskytuje ľudskejšiu interpretáciu farieb. Neponúka však presné farebné proporcie, namiesto toho vracia obmedzený súbor troch alebo štyroch dominantných farieb na objekt.
MR: To je dosť komplexné. Vytvárajú tieto nástroje výstupy len v angličtine?
HV: Vôbec nie. Nástroje tiež poskytujú odkazy na Wikidáta, rozsiahlu vedomostnú základňu, ktorá poháňa Wikipédiu (pozri napríklad identifikátor pojmu "šaty"). To umožňuje používateľom prístup k názvom farieb a objektov prakticky v akomkoľvek jazyku podporovanom Wikiúdajmi, čím sa zlepšuje prístupnosť nástrojov v rôznych jazykových komunitách.
MR: Existujú s takouto vyspelou technológiou etické obavy týkajúce sa budúcnosti? Mohla by analýza obrazu nakoniec nahradiť ľudských odborníkov?
HV: Aj keď sa technológia naďalej vyvíja a stáva sa sofistikovanejšou, je nepravdepodobné, že by v blízkej dobe úplne nahradila ľudskú odbornosť. Algoritmy, hoci sú silné, nie sú neomylné, rovnako ako ľudská analýza môže byť niekedy subjektívna. Tieto nástroje založené na umelej inteligencii však ponúkajú významné výhody: sú mimoriadne rýchle, konzistentné a neochvejné, pokiaľ ide o ich zameranie na opakujúce sa úlohy. V konečnom dôsledku slúžia ako hodnotné doplnky pre ľudských odborníkov, čo im umožňuje venovať svoj čas diferencovanejším, tvorivým snahám a zároveň využívať umelú inteligenciu na rozsiahle spracovanie údajov.
MR: Aké ťažké je pre používateľov pracovať s týmito nástrojmi?
HV: Pre záujemcov o preskúmanie možností nástrojov sme vyvinuli základné grafické rozhranie pre detekciu farieb a nástroj na detekciu objektov, kde môžu používatelia zadať URL online obrazu a otestovať rôzne chute a nastavenia. Tento webový nástroj nevyžaduje žiadnu inštaláciu v počítači používateľa, aj keď je k dispozícii aj možnosť lokálneho stiahnutia a spustenia. Na integráciu týchto nástrojov do existujúcich databáz a spracovanie veľkého množstva obrázkov však budú potrebné určité odborné znalosti v oblasti programovania. Pre takéto prípady pokročilého použitia sme poskytli komplexnú dokumentáciu na našej stránke GitHub, aby sme vývojárov bezproblémovo previedli procesom integrácie.
Ďalšie informácie
V septembri 2024 sa v rámci projektu AI4Culture spustí platforma, na ktorej budú online sprístupnené otvorené nástroje, ako sú uvedené nástroje detekcie, spolu so súvisiacou dokumentáciou a školiacimi materiálmi. Podrobnejšie informácie nájdete na stránke projektu Europeana Pro a pozrite sa na účet LinkedIn a X projektu.
Nástroj na detekciu objektov a objektov je tiež integrovaný do agregačnej platformy MINT a ponúka sa používateľom ako služba s pridanou hodnotou pripravená na použitie. Grafické používateľské rozhranie umožňuje používateľom MINT obohatiť svoje metadáta o anotácie extrahované nástrojom na analýzu obrázkov len niekoľkými kliknutiami. Ak máte záujem využiť túto novo pridanú funkciu MINT, môžete sledovať tento inštruktážnom videu.
