Obogaćivanje metapodataka o kulturnoj baštini boljim oznakama i opisima olakšava pretraživanje i pronalaženje tih predmeta kulturne baštine, što znači da ćete brže i lakše pronaći ono što vam je potrebno. Nedavni napredak u području IT-a i umjetne inteligencije pruža izvanredne mogućnosti za automatsko obogaćivanje metapodataka o kulturnoj baštini minimalnim resursima. Međutim, uključivanje ljudi u ovaj rad i dalje je važno. U projektu CRAFTED kao studiju slučaja uzimamo obrtničku baštinu kako bismo krivotvorili, primijenili i testirali metodologiju koja kombinira algoritme s ljudskom validacijom za obogaćivanje metapodataka o kulturnoj baštini u širim razmjerima.
Metodologija, koju opisujemo u nastavku, sastoji se od četiri glavna koraka: analiza podataka; automatsko obogaćivanje; potvrđivanje obogaćivanja od strane ljudi; i poboljšanje obogaćivanja na temelju rezultata validacije. U svakom koraku u ovom procesu smo se uhvatili u koštac s nizom ključnih pitanja. Koje su vrste obogaćivanja korisne za različite vrste podataka? Kako odabrati odgovarajuće uzorke za ljudsku validaciju? Kako možemo utvrditi prihvatljive pragove kvalitete za automatsko obogaćivanje?
Analiza podataka
Detaljno razumijevanje metapodataka i sadržaja u zbirkama odabranima za obogaćivanje, kao i definiranje odgovarajućih ciljeva obogaćivanja, ključan je prvi korak u određivanju zahtjeva koje naši alati moraju ispuniti. Važno je proučiti različite jezike i semantiku svakog polja metapodataka, kao i način na koji su njihove vrijednosti strukturirane (na primjer, kada se gleda na polje koje prenosi prostorne informacije, moglo bi se saznati da je njegova vrijednost često strukturirana u obliku „grada/regije”). Slično tome, značajke sadržaja moraju se pregledati kako bi se utvrdile smislene značajke koje se iz njega mogu izvesti, uzimajući u obzir aspekte kao što su dostupna razlučivost slike i način na koji se objekti prikazuju na slikama.
Automatsko obogaćivanje
U projektu CRAFTED primijenili smo niz različitih alata za analizu tekstualnih metapodataka i sadržaja velikog broja zbirki različitih karakteristika i potreba za obogaćivanjem. Za analizu metapodataka koristili smo platformu SAGE (semantička bilješka i generiranje obogaćivanja) koju je razvilo Nacionalno tehničko sveučilište u Ateni. Platforma može analizirati tekstualne metapodatke na različitim jezicima i utvrditi širok raspon koncepata primjerenih slučaju (kao što su materijali i tehnike) navedenih u metapodacima. Zatim ih može povezati s pojmovima iz internetskih rječnika specifičnih za određenu domenu, kao što je Europeana Fashion thesaurus koji obuhvaća koncepte povezane s modom. Također može izvoditi izvlačenje entiteta opće namjene kako bi identificirao organizacije, mjesta i ljude te ih povezao s povezanim otvorenim bazama znanja kao što su Wikipodaci.
Usporedno s time isprobali smo niz alata za analizu slika i videozapisa. Eksperimentirali smo s dva glavna pristupa za detekciju boja: prvi pristup razlikuje prednji dio od pozadine, nakon čega pokušava izvući boju (boje) otkrivenog prednjeg dijela. Drugi pristup u osnovi čini isto, ali mu pomaže trenirani algoritam za otkrivanje predmeta. Također smo pokušali detektirati i izdvojiti pisani tekst iz slika pomoću OCR-a (Optical Character Recognition). Konačno, izvukli smo tekstualne transkripte iz videozapisa, s mješovitim rezultatima ovisno o govornom jeziku.
Ljudska validacija
U trećem koraku metodologije ljudi se pozivaju da provjere rezultate koraka automatizirane napomene te da ih prihvate ili odbiju. Ljudski validatori također mogu dodati nove napomene koje automatski algoritam nije uspio identificirati.
Doduše, što se više automatskih bilješki potvrdi, to bolje. Međutim, postoje tisuće tih automatiziranih bilješki, a ljudski validatori prolaze kroz njih vrlo je resursno intenzivan proces. Stoga umjesto toga pregledavamo uzorak bilješki koji je odabran kako bismo mogli donijeti zaključke o svim automatskim bilješkama.
Tijekom odabira uzorka potrebno je uzeti u obzir niz čimbenika. Za analizu metapodataka uzorak treba obuhvatiti različita polja metapodataka s različitim duljinama teksta, uzeti u obzir ocjene sigurnosti koje su algoritmi za zabilješke dodijelili svojim bilješkama (što ukazuje na to koliko su sigurni da osjećaju da su točne) i tako dalje. Slično tome, za analizu sadržaja uzorak mora zadržati uravnotežen prikaz stavki s različitim značajkama sadržaja, na primjer, s različitim bojama i različitim vrstama predmeta.

Analiziranje ljudskih povratnih informacija kako bi se poboljšalo naše obogaćivanje
Cilj nam je analizirati korelaciju između automatskih ocjena pouzdanosti dodijeljenih našim algoritmima za bilježenje i ljudskih prosudbi, tako da možemo utvrditi koji je odgovarajući prag smatrati automatsku bilješku valjanom ili ne. Na primjer, ako ljudi obično prihvaćaju sve bilješke uzorka za koje je automatizirani model dao ocjenu pouzdanosti od 80% ili veću, možemo odlučiti da se sve napomene iznad te ocjene mogu automatski prihvatiti kao valjane. Ljudske validacije također nam mogu pomoći u procjeni i usporedbi učinkovitosti različitih algoritama. Ovaj posljednji cilj je cilj nedavno pokrenute crowdsourcing kampanje koja ima za cilj procijeniti rezultate koje su proizvela dva različita algoritma za otkrivanje boja. Možete nam pomoći da procijenimo i naše modele za bilježenje!
Naposljetku, želimo iskoristiti ljudske povratne informacije kako bismo poboljšali točnost samih automatskih algoritama. Iako algoritmi za prekvalifikaciju koji se oslanjaju na tehnike strojnog učenja nisu među ciljevima projekta CRAFTED, ljudske povratne informacije mogu nam pomoći da prilagodimo algoritme prema postizanju rezultata veće točnosti.
Uključite se
Ako nam želite pomoći u procjeni rezultata naših algoritama za otkrivanje boja, pozivamo vas da doprinesete jednoj od sljedećih kampanja crowdsourcinga:
