Il-kombinazzjoni tal-għodod tal-IA mal-validazzjoni umana biex tiġi arrikkita l-metadata tal-wirt kulturali

Ippubblikat 16 ta’ Frar 2023 minn

Eirini Kaldeli (National Technical University of Athens)

L-arrikkiment tal-metadata tal-wirt kulturali b'tikketti u deskrizzjonijiet aħjar jagħmilha aktar faċli għal kulħadd biex ifittex u jsib dawn l-oġġetti tal-wirt kulturali, li jfisser li ssib dak li għandek bżonn aktar malajr u aktar faċilment. L-avvanzi reċenti fl-IT u fl-IA joffru opportunitajiet notevoli għall-arrikkiment awtomatiku tal-metadata tal-wirt kulturali b’riżorsi minimi. Madankollu, l-involviment tal-bnedmin f’din il-ħidma jibqa’ importanti. Fil-proġett CRAFTED, qed nieħdu l-wirt artiġjanali bħala studju tal-każ sabiex insawru, nimplimentaw u nittestjaw metodoloġija li tgħaqqad l-algoritmi mal-validazzjoni umana għall-arrikkiment tal-metadata tal-wirt kulturali fuq skala kbira.

Il-metodoloġija, li nispjegaw hawn taħt, tikkonsisti f’erba’ passi ewlenin: analiżi tad-data; arrikkiment awtomatiku; validazzjoni tal-arrikkimenti mill-bnedmin; u r-raffinar tal-arrikkimenti abbażi tal-eżiti tal-validazzjoni. F’kull wieħed mill-passi f’dan il-proċess, aħna tkellimna ma’ għadd ta’ mistoqsijiet kruċjali. X’tipi ta’ arrikkiment huma utli għal tipi differenti ta’ data? Kif nagħżlu kampjuni xierqa għall-validazzjoni umana? Kif nistgħu nistabbilixxu limiti ta’ kwalità aċċettabbli għall-arrikkimenti awtomatiċi?

Analiżi tad-data

Il-kisba ta’ fehim dettaljat tal-metadata u l-kontenut fil-kollezzjonijiet magħżula għall-arrikkiment, kif ukoll id-definizzjoni ta’ objettivi ta’ arrikkiment xierqa skont il-każ, huma l-ewwel pass kruċjali fid-determinazzjoni tar-rekwiżiti li l-għodod tagħna jridu jissodisfaw. Huwa importanti li jiġu studjati l-lingwi u s-semantika differenti ta’ kull qasam tal-metadata, kif ukoll il-mod kif il-valuri tagħhom huma strutturati (pereżempju, meta wieħed iħares lejn qasam li jwassal informazzjoni ġeografika wieħed jista’ jsib li l-valur tiegħu spiss ikun strutturat fil-format ta’ “belt/reġjun”). Bl-istess mod, il-karatteristiċi tal-kontenut iridu jiġu skrutinizzati biex jiġu identifikati karatteristiċi sinifikanti li jistgħu jiġu derivati minnu, filwaqt li jitqiesu aspetti bħar-riżoluzzjoni tal-immaġni disponibbli u l-mod kif l-oġġetti jintwerew fl-immaġnijiet.

Arrikkiment awtomatiku

Fil-proġett CRAFTED applikajna għadd ta’ għodod differenti biex nanalizzaw il-metadata testwali u l-kontenut ta’ varjetà kbira ta’ kollezzjonijiet b’karatteristiċi u ħtiġijiet ta’ arrikkiment differenti. Għall-analiżi tal-metadata, użajna l-pjattaforma SAGE (Annotazzjoni Semantika u Ġenerazzjoni ta’ Arrikkamenti) żviluppata mill-Università Teknika Nazzjonali ta’ Ateni. Il-pjattaforma tista’ tanalizza l-metadata testwali f’lingwi differenti u tidentifika varjetà wiesgħa ta’ kunċetti xierqa għall-każ (bħal materjali u tekniki) imsemmija fil-metadata. Imbagħad tista’ torbothom ma’ termini minn vokabularji online speċifiċi għad-dominju, bħat-teżawru Europeana Fashion li jkopri kunċetti relatati mal-moda. Tista 'wkoll twettaq estrazzjoni ta' entità msemmija bi skop aktar ġenerali biex tidentifika organizzazzjonijiet, postijiet, u nies, u tgħaqqadhom ma 'bażijiet ta' għarfien Miftuħ Linked bħal Wikidata.

B’mod parallel, ippruvajna għadd ta’ għodod li janalizzaw l-immaġnijiet u l-vidjows. Aħna esperimentajna b’żewġ approċċi ewlenin għad-detezzjoni tal-kulur: l-ewwel approċċ jiddistingwi l-informazzjoni eżistenti mill-isfond, u wara dan jipprova jestratta l-kulur(i) tal-informazzjoni eżistenti identifikata. It-tieni approċċ essenzjalment jagħmel l-istess, iżda huwa assistit minn algoritmu ta’ detezzjoni ta’ oġġetti mħarreġ. Ippruvajna wkoll nidentifikaw u nisiltu test bil-miktub minn immaġnijiet bl-użu tal-OCR (Rikonoxximent Ottiku tal-Karattri). Fl-aħħar nett, aħna estrattajna traskrizzjonijiet testwali minn vidjows, b'riżultati mħallta skont il-lingwa mitkellma.

Validazzjoni umana

Fit-tielet pass tal-metodoloġija, il-bnedmin huma mistiedna jivverifikaw ir-riżultati tal-pass awtomatizzat tal-annotazzjoni u jaċċettawhom jew jirrifjutawhom. Il-validaturi umani jistgħu jżidu wkoll annotazzjonijiet ġodda li l-algoritmu awtomatiku naqas milli jidentifika.

Ċertament, iktar ma dawn l-annotazzjonijiet awtomatiċi jiġu vvalidati, aħjar. Madankollu, hemm eluf ta 'dawn l-annotazzjonijiet awtomatizzati, u li jkollok validaturi umani jgħaddu minnhom huwa proċess intensiv ħafna fir-riżorsi. Għalhekk minflok nirrevedu kampjun tal-annotazzjonijiet li jintgħażel biex inkunu nistgħu nisiltu konklużjonijiet dwar l-annotazzjonijiet awtomatiċi kollha.

Matul l-għażla tal-kampjun għandhom jiġu kkunsidrati għadd ta’ fatturi. Għall-analiżi tal-metadata, il-kampjun jeħtieġ li jkopri kampijiet ta’ metadata differenti b’diversi tulijiet ta’ test, jikkunsidra l-punteġġi taċ-ċertezza li l-algoritmi ta’ annotazzjoni assenjati lill-annotazzjonijiet tagħhom (li jissuġġerixxu kemm iħossuhom kunfidenti li huma korretti), eċċ. Bl-istess mod, għall-analiżi tal-kontenut, il-kampjun irid iżomm rappreżentazzjoni bbilanċjata ta’ oġġetti b’karatteristiċi ta’ kontenut differenti, pereżempju, b’kuluri differenti u tipi differenti ta’ oġġetti.

Analiżi tal-feedback uman biex nirfinaw l-arrikkimenti tagħna

Aħna nimmiraw li nanalizzaw il-korrelazzjoni bejn il-punteġġi awtomatiċi ta’ fiduċja assenjati mill-algoritmi ta’ annotazzjoni tagħna u l-ġudizzji umani, sabiex inkunu nistgħu nistabbilixxu x’livell limitu xieraq huwa li l-annotazzjoni awtomatika titqies bħala valida jew le. Pereżempju, jekk il-bnedmin għandhom it-tendenza li jaċċettaw l-annotazzjonijiet kollha tal-kampjun li għalihom il-mudell awtomatizzat ta punteġġ ta’ fiduċja ta’ 80 % jew ogħla, nistgħu niddeċiedu li l-annotazzjonijiet kollha ’l fuq minn dak il-punteġġ jistgħu jiġu aċċettati awtomatikament bħala validi. Il-validazzjonijiet umani jistgħu jgħinuna wkoll biex nevalwaw u nqabblu l-effettività ta’ algoritmi differenti. Dan l-aħħar għan huwa l-objettiv ta’ kampanja ta’ crowdsourcing mibdija reċentement li għandha l-għan li tevalwa r-riżultati prodotti minn żewġ algoritmi differenti ta’ detezzjoni tal-kulur. Tista’ tgħinna nevalwaw il-mudelli ta’ annotazzjoni tagħna wkoll!

Fl-aħħar nett, irridu nużaw il-feedback tal-bniedem biex intejbu l-preċiżjoni tal-algoritmi awtomatiċi nfushom. Għalkemm l-algoritmi ta’ taħriġ mill-ġdid li jiddependu fuq tekniki ta’ tagħlim awtomatiku mhumiex fost l-objettivi tal-proġett CRAFTED, il-feedback uman jista’ jgħinna nnaqqsu l-algoritmi lejn il-kisba ta’ riżultati bi preċiżjoni ogħla.

Involvi ruħek

Jekk tixtieq tgħinna nevalwaw ir-riżultati prodotti mill-algoritmi tagħna ta’ detezzjoni tal-kulur, nistednuk tikkontribwixxi għal waħda mill-kampanji ta’ crowdsourcing li ġejjin:

Kampanja dwar kollezzjonijiet mill-Mużew ta’ Prato li għandha l-għan li tqabbel żewġ algoritmi differenti tal-IA
Kampanja li tinvolvi oġġetti tas-snajja' mill-Mużew tal-Moda ta' Antwerp
Kampanja dwar diversi oġġetti mill-wirt tas-snajja’ Griegi