Tehisintellekti vahendite kombineerimine inimvalideerimisega, et rikastada kultuuripärandi metaandmeid

Avaldatud 16. veebruar 2023 poolt

Eirini Kaldeli (National Technical University of Athens)

Kultuuripärandi metaandmete rikastamine paremate siltide ja kirjeldustega lihtsustab nende kultuuripärandi objektide otsimist ja leidmist, mis tähendab, et leiate vajaliku kiiremini ja lihtsamalt. Hiljutised edusammud IT ja tehisintellekti valdkonnas pakuvad märkimisväärseid võimalusi kultuuripärandi metaandmete automaatseks rikastamiseks minimaalsete ressurssidega. Kuid inimeste kaasamine sellesse töösse on endiselt oluline. Projektis CRAFTED käsitleme käsitööpärandit juhtumiuuringuna, et luua, rakendada ja katsetada metoodikat, mis ühendab algoritmid inimvalideerimisega kultuuripärandi metaandmete ulatuslikuks rikastamiseks.

Metoodika, mida kirjeldame allpool, koosneb neljast peamisest etapist: andmete analüüs; automaatne rikastamine; rikastamise valideerimine inimeste poolt; ning rikastamise täiustamine valideerimise tulemuste põhjal. Selle protsessi igas etapis käsitlesime mitmeid olulisi küsimusi. Millist liiki rikastamine on kasulik eri liiki andmete puhul? Kuidas valida sobivad proovid inimese valideerimiseks? Kuidas kehtestada automaatse rikastamise jaoks vastuvõetavad kvaliteedikünnised?

Andmete analüüs

Üksikasjalik arusaamine rikastamiseks valitud kogude metaandmetest ja sisust ning asjakohaste rikastamiseesmärkide määratlemine on oluline esimene samm nõuete kindlaksmääramisel, millele meie tööriistad peavad vastama. Oluline on uurida iga metaandmete välja erinevaid keeli ja semantikat, samuti seda, kuidas nende väärtused on struktureeritud (näiteks kui vaadata välja, mis edastab ruumilist teavet, võib avastada, et selle väärtus on sageli struktureeritud vormingus „linn/piirkond“). Samuti tuleb uurida sisu omadusi, et teha kindlaks olulised omadused, mida saab sellest tuletada, võttes arvesse selliseid aspekte nagu olemasolev pildi eraldusvõime ja viis, kuidas objekte piltidel kujutatakse.

Automaatne rikastamine

Projektis CRAFTED oleme rakendanud mitmeid erinevaid vahendeid, et analüüsida erinevate omaduste ja rikastamisvajadustega suure hulga kollektsioonide tekstilisi metaandmeid ja sisu. Metaandmete analüüsimiseks kasutasime Ateena riikliku tehnikaülikooli välja töötatud SAGE platvormi (Semantic Annotation and Generation of Enrichments). Platvorm suudab analüüsida tekstilisi metaandmeid eri keeltes ja tuvastada mitmesuguseid metaandmetes nimetatud juhtumikohaseid mõisteid (nt materjalid ja tehnikad). Seejärel saab need siduda valdkonnaspetsiifiliste veebisõnastike terminitega, näiteks Europeana Fashioni tesaurusega, mis hõlmab moega seotud mõisteid. Samuti saab see teha üldisema nimega üksuste väljavõtteid, et tuvastada organisatsioone, kohti ja inimesi ning ühendada need lingitud avatud teadmusbaasidega, nagu Wikidata.

Samal ajal katsetasime mitmeid tööriistu, mis analüüsivad pilte ja videoid. Katsetasime värvide tuvastamiseks kahte peamist lähenemisviisi: esimene lähenemisviis eristab esiplaani taustast, mille järel proovitakse eraldada tuvastatud esiplaani värv(id). Teine lähenemine teeb sisuliselt sama, kuid seda abistab koolitatud objekti tuvastamise algoritm. Samuti püüdsime tuvastada ja ekstraktida piltidelt kirjutatud teksti OCR-i (Optical Character Recognition) abil. Lõpuks eraldasime videotest tekstilised transkriptsioonid, mille tulemused varieerusid sõltuvalt kõneldavast keelest.

Inimese valideerimine

Metoodika kolmandas etapis kutsutakse inimesi üles kontrollima automatiseeritud märgete etapi tulemusi ja need heaks kiitma või tagasi lükkama. Inimvalideerijad saavad lisada ka uusi märkusi, mida automaatne algoritm ei suutnud tuvastada.

Tõsi, mida rohkem neid automaatseid märkeid valideeritakse, seda parem. Kuid neid automatiseeritud märkeid on tuhandeid ja inimeste valideerijate läbimine on väga ressursimahukas protsess. Nii et selle asemel vaatame üle märkide valimi, mis on valitud selleks, et saaksime teha järeldusi kõigi automaatsete märkide kohta.

Valimi moodustamisel tuleb arvesse võtta mitmeid tegureid. Metaandmete analüüsi puhul peab valim hõlmama erinevaid metaandmete välju, millel on erinev tekstipikkus, võtma arvesse kindluspunkte, mida annotatsioonialgoritmid omistavad nende annotatsioonidele (mis näitavad, kui kindlad nad tunnevad, et need on õiged) jne. Samamoodi peab valim sisu analüüsimisel säilitama erinevate sisuomadustega, näiteks erinevate värvide ja erinevat tüüpi esemete tasakaalustatud esituse.

Inimeste tagasiside analüüsimine meie rikastuste täiustamiseks

Meie eesmärk on analüüsida meie annotatsioonialgoritmidega määratud automaatsete usalduspunktide ja inimhinnangute vahelist korrelatsiooni, et saaksime kindlaks teha, milline on asjakohane künnis, et pidada automaatset annotatsiooni kehtivaks või mitte. Näiteks kui inimesed kipuvad aktsepteerima kõiki proovimärkusi, mille puhul automatiseeritud mudel andis 80% või suurema usaldusskoori, võime otsustada, et kõik seda skoori ületavad märkused saab automaatselt kehtivaks tunnistada. Inimeste valideerimine võib samuti aidata meil hinnata ja võrrelda erinevate algoritmide tõhusust. See viimane eesmärk on hiljuti algatatud rahvahanke kampaania eesmärk, mille eesmärk on hinnata kahe erineva värvituvastusalgoritmi tulemusi. Võite aidata meil hinnata ka meie annotatsioonimudeleid!

Lõpuks tahame kasutada inimeste tagasisidet, et parandada automaatsete algoritmide täpsust. Kuigi masinõppemeetoditel põhinevad ümberõppealgoritmid ei kuulu projekti CRAFTED eesmärkide hulka, võib inimeste tagasiside aidata meil algoritme täpsemate tulemuste saavutamiseks muuta.

Osalege

Kui soovite aidata meil hinnata meie värvituvastusalgoritmide tulemusi, kutsume teid osalema ühes järgmistest rahvahankekampaaniatest:

Prato muuseumi kogude kampaania, mille eesmärk on võrrelda kahte erinevat tehisintellekti algoritmi
Kampaania, mis hõlmab Antwerpeni moemuuseumi käsitööesemeid
Kampaania erinevate esemete kohta Kreeka käsitööpärandist