Marco Rendina: Biex tibda l-konversazzjoni, tista 'tgħidilna eżattament x'inhi l-analiżi tal-kontenut tal-immaġni?
Henk Vanstappen: L-analiżi tal-kontenut tal-immaġni, magħrufa wkoll bħala analiżi viżwali, hija l-proċess ta 'estrazzjoni ta' informazzjoni minn immaġnijiet diġitali. Hija tuża tekniki u algoritmi sofistikati biex tanalizza diversi aspetti ta’ immaġni, bħal oġġetti, mudelli, kuluri, nisġa u forom. Din it-teknoloġija qed tintuża f’diversi oqsma, mid-dijanjożi medika sas-sorveljanza bil-vidjo.
MR: Dan kif huwa rilevanti għas-settur tal-wirt kulturali?
HV: Fil-wirt kulturali, spiss niltaqgħu ma’ kollezzjonijiet vasti ta’ immaġnijiet diġitali b’metadata minima dwar il-kontenut reali tagħhom. Immaġina arkivju estensiv tar-ritratti fejn jiġu rreġistrati biss id-data u l-fotografu. Għall-utent medju, in-navigazzjoni u t-tiftix permezz ta’ tali kollezzjoni mingħajr informazzjoni testwali jkunu kompitu diffiċli. L-analiżi tal-immaġnijiet tista’ tawtomatizza d-detezzjoni tal-oġġetti, tikklassifika l-immaġnijiet fi gruppi sinifikanti (pereżempju, immaġnijiet li jkun fihom in-nies) u aktar, u b’hekk dawn il-kollezzjonijiet isiru aktar aċċessibbli. Tista’ ssib xi eżempji tajbin ta’ dak li jista’ jinkiseb f’sensiela oħra ta’ aħbarijiet fuq Europeana Pro.
MR: Nifhem li ġiet żviluppata għodda ta 'skoperta ta' oġġetti għall-proġett AI4Culture - x'tista 'tgħidilna dwarha?
HV: Huwa għodda ta 'skoperta ta' oġġett u suġġett. Id-detezzjoni tal-oġġetti tidentifika oġġetti fiżiċi f’immaġni, bħal stazzjon tal-ferrovija jew libsa. Id-detezzjoni tas-suġġett tiddetermina s-suġġett usa’, bħal “arkitettura,” “traffiku,” jew “moda.” Din l-għodda hija disponibbli f’“togħmiet” differenti biex tkopri diversi każijiet ta’ użu.
MR: Jogħġobni din l-idea ta’ għodda diġitali li għandha “togħmiet” - tagħmilha ħoss li tista’ tiġi avviċinata ħafna. X'inhuma dawn it-"togħmiet" multipli?
HV: Ridna nipprovdu l-aktar għodda xierqa għal xenarji differenti. It-“togħma” bażika tippakkja għodda ta’ detezzjoni ta’ oġġetti sempliċi u b’veloċità għolja li tuża l-mudell MobileNet-SSD v3. Hija kapaċi tirrikonoxxi oġġetti komuni bħal karozzi, ajruplani, jew nies – tista’, pereżempju, tużaha biex tiskrinja kollezzjonijiet ta’ immaġnijiet biex tidentifika kontenut sensittiv għall-privatezza.
It-tieni għodda ppakkjata fis-servizz tuża mudell tal-IA ġenerattiv sofistikat (Salesforce/blip-vqa-base) li jista’ jifhem u jwieġeb mistoqsijiet dwar il-kontenut ta’ immaġni, simili għal kif jaħdem ChatGPT bit-test. Filwaqt li huwa aktar avvanzat mill-verżjoni bażika, ma jistax jindika l-post ta 'oġġett fl-immaġni.
It-tielet għażla fil-pakkett tingrana s-servizz ta’ Viżjoni ta’ Google, u toffri kapaċitajiet ta’ detezzjoni saħansitra akbar. Madankollu, bħala servizz kummerċjali, jeħtieġ kont tal-utent fuq Google Cloud, servizz cloud li joffri skoperta ta 'oġġett, li jagħmilha aktar adattata għal użu avvanzat.
MR: Hemm ukoll għodda ta 'skoperta tal-kulur disponibbli. X’jagħmel l-analiżi tal-kulur sinifikanti?
HV: Il-kulur huwa aspett kruċjali ta’ ċerti kollezzjonijiet, bħal dawk relatati mad-disinn u l-moda. Madankollu, id-definizzjoni tal-kuluri hija proċess suġġettiv ħafna. Filwaqt li l-għajn tal-bniedem tista 'tidentifika biċċa ġojjellerija bħala deheb jew ram, kompjuter jista' sempliċement jipperċepixxiha bħala safra. Barra minn hekk, għal kompjuter, il-kuluri ta’ immaġni ta’ nagħġa f’mergħa huma biss “bojod” u “ħodor”. Allura għamilna algoritmi li jistgħu jiżolaw oġġetti mill-isfond u jidentifikaw b'mod preċiż il-kuluri tagħhom.
MR: Din l-għodda tinkorpora wkoll id-detezzjoni tal-oġġetti?
HV: Iva. Filwaqt li l-għodda tista 'awtomatikament tiżola oġġetti, l-utenti jistgħu wkoll jgħinu billi jispeċifikaw ir-reġjun fejn jinsab oġġett. B'dan il-mod, tista 'tingrana l-output mill-għodda ta' detezzjoni tal-oġġett biex tikseb il-kuluri ta 'oġġetti multipli f'immaġni waħda, jekk preżenti.
MR: U l-għodda ta’ detezzjoni tal-oġġetti tiġi wkoll f’togħmiet differenti?
HV: Fil-fatt. L-ewwel verżjoni tgħodd il-pixels tal-oġġett identifikat, tiġborhom f’kuluri u tirritorna l-proporzjon ta’ kull kulur bħala perċentwal. It-tieni verżjoni tuża l-istess mudell tal-IA ġenerattiva bħall-għodda għad-detezzjoni tal-oġġetti, u tipprovdi interpretazzjoni tal-kuluri aktar simili għall-bniedem. Madankollu, ma joffrix proporzjonijiet preċiżi ta’ kuluri, u minflok jirritorna sett limitat ta’ tliet jew erba’ kuluri dominanti għal kull oġġett.
MR: Dan huwa pjuttost komprensiv. Dawn l-għodod jiġġeneraw outputs bl-Ingliż biss?
HV: Xejn affattu. L-għodod jipprovdu wkoll links għall-Wikidata, bażi ta' għarfien estensiva li tagħti s-setgħa lill-Wikipedija (ara, pereżempju, l-identifikatur għall-kunċett ta' "indirizz"). Dan jippermetti lill-utenti jaċċessaw ismijiet ta' kuluri u oġġetti prattikament fi kwalunkwe lingwa appoġġata mill-Wikidata, filwaqt li jtejjeb l-aċċessibbiltà tal-għodod f'komunitajiet lingwistiċi differenti.
MR: B'teknoloġija avvanzata bħal din, hemm tħassib etiku dwar il-futur? L-analiżi tal-immaġni tista’ eventwalment tissostitwixxi l-esperti umani?
HV: Filwaqt li t-teknoloġija tkompli tevolvi u ssir aktar sofistikata, x'aktarx li ma tissostitwixxix kompletament l-għarfien espert tal-bniedem fi kwalunkwe ħin dalwaqt. Algoritmi, għalkemm qawwija, mhumiex infallibbli, bħalma l-analiżi umana xi kultant tista 'tkun suġġettiva. Madankollu, dawn l-għodod xprunati mill-IA joffru vantaġġi sinifikanti: huma notevolment rapidi, konsistenti u sodi fl-enfasi tagħhom fuq kompiti ripetittivi. Fl-aħħar mill-aħħar, dawn iservu bħala komplementi siewja għall-esperti umani, li jippermettulhom jiddedikaw il-ħin tagħhom għal sforzi aktar sottili u kreattivi filwaqt li jisfruttaw l-IA għall-ipproċessar tad-data fuq skala kbira.
MR: Kemm hu diffiċli għall-utenti biex jaħdmu b'dawn l-għodod?
HV: Għal dawk interessati li jesploraw il-kapaċitajiet tal-għodod, żviluppajna interface grafiku bażiku għad-detezzjoni tal-kulur u l-għodda għad-detezzjoni tal-oġġetti, fejn l-utenti jistgħu jdaħħlu l-URL ta’ immaġni online u jittestjaw id-diversi togħmiet u settings. Din l-għodda bbażata fuq il-web ma teħtieġ l-ebda installazzjoni fuq il-kompjuter tal-utent, għalkemm l-għażla li tniżżel u tħaddemha lokalment hija disponibbli wkoll. Madankollu, biex dawn l-għodod jiġu integrati fil-bażijiet tad-data eżistenti u jiġu pproċessati kwantitajiet kbar ta’ immaġnijiet, se jkun meħtieġ xi għarfien espert fil-programmazzjoni. Għal każijiet ta 'użu avvanzat bħal dawn, aħna pprovdejna dokumentazzjoni komprensiva fuq il-paġna GitHub tagħna biex tiggwida lill-iżviluppaturi permezz tal-proċess ta' integrazzjoni bla xkiel.
Skopri aktar
F’Settembru 2024, il-proġett AI4Culture se jniedi pjattaforma fejn għodod miftuħa, bħall-għodod ta’ detezzjoni ppreżentati hawn fuq, se jkunu disponibbli online, flimkien ma’ dokumentazzjoni u materjali ta’ taħriġ relatati. Żomm għajnejk fuq il-paġna tal-proġett fuq Europeana Pro għal aktar dettalji u ibqa’ aġġornat dwar il-proġett LinkedIn u l-kont X!
L-għodda ta’ detezzjoni tal-oġġetti u tas-suġġetti hija integrata wkoll fil-pjattaforma ta’ aggregazzjoni MINT u offruta bħala servizz b’valur miżjud lest għall-użu lill-utenti tagħha. L-interface tal-utent grafiku jippermetti lill-utenti MINT jarrikkixxu l-metadata tagħhom bl-annotazzjonijiet estratti mill-għodda tal-analiżi tal-immaġni bi ftit klikks biss. Jekk inti interessat li tieħu vantaġġ minn din il-karatteristika MINT li għadha kif ġiet miżjuda, tista’ ssegwi dan it-tutorja tal-vidjo.
