Mākslīgā intelekta rīku apvienošana ar cilvēka veiktu validāciju, lai bagātinātu kultūras mantojuma metadatus

Publicēts 2023. gada 16. februāris autors

Eirini Kaldeli (National Technical University of Athens)

Kultūras mantojuma metadatu bagātināšana ar labākiem tagiem un aprakstiem ļauj ikvienam vieglāk meklēt un atrast šos kultūras mantojuma objektus, kas nozīmē, ka jūs atradīsiet to, kas jums nepieciešams ātrāk un vieglāk. Nesenie sasniegumi IT un MI jomā piedāvā ievērojamas iespējas kultūras mantojuma metadatu automātiskai bagātināšanai ar minimāliem resursiem. Tomēr cilvēku iesaistīšana šajā darbā joprojām ir svarīga. Projektā CRAFTED mēs izmantojam amatniecības mantojumu kā gadījuma izpēti, lai izstrādātu, īstenotu un testētu metodiku, kas apvieno algoritmus ar cilvēka veiktu validāciju kultūras mantojuma metadatu plaša mēroga bagātināšanai.

Metodika, ko mēs izklāstām turpmāk, sastāv no četriem galvenajiem posmiem: datu analīze; automātiska bagātināšana; cilvēku veiktu bagātinājumu validāciju; un pilnveidojot bagātinājumus, pamatojoties uz validācijas rezultātiem. Katrā no šā procesa posmiem mēs uzdevām vairākus būtiskus jautājumus. Kāda veida bagātināšana ir noderīga dažāda veida datiem? Kā mēs atlasām piemērotus paraugus cilvēka veiktai validācijai? Kā mēs varam noteikt pieņemamas kvalitātes robežvērtības automātiskai bagātināšanai?

Datu analīze

Detalizētas izpratnes iegūšana par metadatiem un saturu krājumos, kas atlasīti bagātināšanai, kā arī atbilstošu bagātināšanas mērķu noteikšana ir būtisks pirmais solis, lai noteiktu prasības, kurām mūsu rīkiem ir jāatbilst. Ir svarīgi izpētīt katra metadatu lauka dažādās valodas un semantiku, kā arī to vērtību struktūru (piemēram, aplūkojot lauku, kas sniedz telpisko informāciju, var uzzināt, ka tā vērtība bieži vien ir strukturēta formātā “pilsēta/reģions”). Tāpat ir rūpīgi jāpārbauda satura īpašības, lai identificētu jēgpilnas iezīmes, ko var atvasināt no tā, ņemot vērā tādus aspektus kā pieejamā attēla izšķirtspēja un tas, kā objekti tiek attēloti attēlos.

Automātiska bagātināšana

Projektā CRAFTED mēs esam izmantojuši vairākus dažādus rīkus, lai analizētu teksta metadatus un saturu no dažādām kolekcijām ar dažādām īpašībām un bagātināšanas vajadzībām. Metadatu analīzei mēs izmantojām Atēnu Valsts tehniskās universitātes izstrādāto SAGE platformu (Semantiskā anotācija un bagātinājumu ģenerēšana). Platforma spēj analizēt teksta metadatus dažādās valodās un identificēt dažādus lietai piemērotus jēdzienus (piemēram, materiālus un metodes), kas minēti metadatos. Pēc tam tā var sasaistīt tos ar terminiem no konkrētu jomu tiešsaistes vārdnīcām, piemēram, Europeana Fashion tēzauru, kas aptver ar modi saistītus jēdzienus. Tā var arī veikt vispārīgāka mērķa nosaukto vienību izgūšanu, lai identificētu organizācijas, vietas un cilvēkus un savienotu tos ar saistītām atvērtām zināšanu bāzēm, piemēram, Wikidata.

Paralēli mēs izmēģinājām vairākus rīkus, kas analizē attēlus un videoklipus. Mēs eksperimentējām ar divām galvenajām pieejām krāsu noteikšanai: pirmā pieeja atšķir jaunās zināšanas no fona, pēc kuras tā mēģina iegūt noteikto jauno zināšanu krāsu(-as). Otrā pieeja būtībā ir tāda pati, bet tai palīdz apmācīts objektu noteikšanas algoritms. Mēs arī centāmies atklāt un izgūt rakstisku tekstu no attēliem, izmantojot OCR (optiskā rakstzīmju atpazīšana). Visbeidzot, mēs izguvām tekstuālus transkripcijas no videoklipiem ar jauktiem rezultātiem atkarībā no runātās valodas.

Cilvēka veikta validācija

Metodikas trešajā posmā cilvēki tiek aicināti pārbaudīt automātiskās anotācijas posma rezultātus un pieņemt vai noraidīt tos. Cilvēka validētāji var arī pievienot jaunas anotācijas, kuras automātiskais algoritms neidentificēja.

Jāatzīst, jo vairāk no šīm automātiskajām anotācijām tiek validētas, jo labāk. Tomēr ir tūkstošiem šo automatizēto anotāciju, un tas, ka cilvēki validē tās, ir ļoti resursietilpīgs process. Tā vietā mēs pārskatām atlasīto anotāciju izlasi, lai mēs varētu izdarīt secinājumus par visām automātiskajām anotācijām.

Atlasot paraugus, jāņem vērā vairāki faktori. Metadatu analīzei izlasei jāaptver dažādi metadatu lauki ar dažādiem teksta garumiem, jāņem vērā noteiktības rādītāji, ko anotāciju algoritmi piešķir to anotācijām (kas liecina par to, cik pārliecināti viņi uzskata, ka tie ir pareizi), un tā tālāk. Līdzīgi satura analīzei paraugam ir jāsaglabā līdzsvarots tādu elementu atveidojums, kuriem ir atšķirīgas satura īpašības, piemēram, dažādas krāsas un dažādi objektu veidi.

Cilvēka atgriezeniskās saites analīze, lai uzlabotu mūsu bagātinājumus

Mūsu mērķis ir analizēt korelāciju starp automātiskajiem ticamības rādītājiem, kas piešķirti ar mūsu anotāciju algoritmiem, un cilvēka vērtējumiem, lai mēs varētu noteikt, kāds ir atbilstošs slieksnis, lai automātisko anotāciju uzskatītu par derīgu vai nederīgu. Piemēram, ja cilvēki mēdz pieņemt visas parauga anotācijas, kurām automatizētais modelis deva 80 % vai augstāku ticamības vērtējumu, mēs varam nolemt, ka visas anotācijas, kas pārsniedz šo vērtējumu, var automātiski pieņemt kā derīgas. Cilvēka veikta validācija var arī palīdzēt mums novērtēt un salīdzināt dažādu algoritmu efektivitāti. Šis pēdējais mērķis ir nesen uzsāktās pūļa pakalpojumu kampaņas mērķis, kuras mērķis ir novērtēt rezultātus, kas iegūti ar diviem dažādiem krāsu noteikšanas algoritmiem. Jūs varat mums palīdzēt novērtēt arī mūsu anotāciju modeļus!

Visbeidzot, mēs vēlamies izmantot cilvēku atsauksmes, lai uzlabotu pašu automātisko algoritmu precizitāti. Lai gan pārkvalifikācija algoritmiem, kas balstās uz mašīnmācīšanās metodēm, nav viens no projekta CRAFTED mērķiem, cilvēku atsauksmes var palīdzēt mums pielāgot algoritmus, lai sasniegtu augstākas precizitātes rezultātus.

Iesaistīties

Ja vēlaties mums palīdzēt novērtēt mūsu krāsu noteikšanas algoritmu rezultātus, aicinām piedalīties kādā no šīm pūļa pakalpojumu kampaņām:

Kampaņa par Prato muzeja kolekcijām, kuras mērķis ir salīdzināt divus dažādus MI algoritmus
Kampaņa ar Antverpenes Modes muzeja amatniecības priekšmetiem
Kampaņa par dažādiem Grieķijas amatniecības mantojuma priekšmetiem