Obogatitev metapodatkov o kulturni dediščini z boljšimi oznakami in opisi vsakomur olajša iskanje in iskanje teh predmetov kulturne dediščine, kar pomeni, da boste hitreje in enostavneje našli tisto, kar potrebujete. Nedavni napredek na področju informacijske tehnologije in umetne inteligence ponuja izjemne priložnosti za samodejno obogatitev metapodatkov o kulturni dediščini z minimalnimi viri. Vendar pa je vključevanje ljudi v to delo še vedno pomembno. V projektu CRAFTED obravnavamo obrtno dediščino kot študijo primera, da bi oblikovali, izvedli in preizkusili metodologijo, ki združuje algoritme s človeškim potrjevanjem za obogatitev metapodatkov kulturne dediščine v velikem obsegu.
Metodologija, ki jo opisujemo v nadaljevanju, je sestavljena iz štirih glavnih korakov: analiza podatkov; samodejno obogatitev; potrditev obogatitve s strani ljudi; ter obogatitev z rafiniranjem na podlagi rezultatov validacije. V vsakem od korakov v tem procesu smo se spoprijeli s številnimi ključnimi vprašanji. Katere vrste obogatitve so uporabne za različne vrste podatkov? Kako izbrati ustrezne vzorce za človeško validacijo? Kako lahko določimo sprejemljive pragove kakovosti za samodejno obogatitev?
Analiza podatkov
Pridobitev podrobnega razumevanja metapodatkov in vsebine v zbirkah, izbranih za obogatitev, ter opredelitev ustreznih ciljev obogatitve je ključni prvi korak pri določanju zahtev, ki jih morajo izpolnjevati naša orodja. Pomembno je preučiti različne jezike in semantiko vsakega metapodatkovnega polja ter način, kako so njihove vrednosti strukturirane (na primer, če pogledamo polje, ki posreduje prostorske informacije, lahko ugotovimo, da je njegova vrednost pogosto strukturirana v obliki „mesta/regije“). Podobno je treba pregledati značilnosti vsebine, da se opredelijo pomembne značilnosti, ki jih je mogoče izpeljati iz nje, ob upoštevanju vidikov, kot sta razpoložljiva ločljivost slike in način upodabljanja predmetov na slikah.
Samodejna obogatitev
V projektu CRAFTED smo uporabili številna različna orodja za analizo besedilnih metapodatkov in vsebine najrazličnejših zbirk z različnimi značilnostmi in potrebami po obogatitvi. Za analizo metapodatkov smo uporabili platformo SAGE (Semantična oznaka in generacija obogatitev), ki jo je razvila Nacionalna tehnična univerza v Atenah. Platforma lahko analizira besedilne metapodatke v različnih jezikih in opredeli najrazličnejše koncepte, primerne za posamezne primere (kot so materiali in tehnike), navedene v metapodatkih. Nato jih lahko poveže z izrazi iz spletnih besednjakov za posamezna področja, kot je tezaver Europeana Fashion, ki zajema koncepte, povezane z modo. Izvaja lahko tudi splošnejše pridobivanje imenskih entitet, da identificira organizacije, kraje in ljudi ter jih poveže z bazami znanja Linked Open, kot so Wikipodatki.
Vzporedno smo preizkusili številna orodja, ki analizirajo slike in videoposnetke. Eksperimentirali smo z dvema glavnima pristopoma za zaznavanje barv: pri prvem pristopu se ospredje razlikuje od ozadja, nato pa se poskuša izluščiti barva(-e) zaznanega ospredja. Drugi pristop je v bistvu enak, vendar mu pomaga naučen algoritem za odkrivanje predmetov. Prav tako smo poskušali zaznati in izvleči pisno besedilo iz slik z uporabo optičnega prepoznavanja znakov (OCR). Nazadnje smo iz videoposnetkov izvlekli besedilne prepise z mešanimi rezultati, odvisno od govorjenega jezika.
Človeška potrditev
V tretjem koraku metodologije so ljudje pozvani, da preverijo rezultate avtomatiziranega koraka označevanja in jih sprejmejo ali zavrnejo. Človeški potrjevalci lahko dodajo tudi nove opombe, ki jih samodejni algoritem ni prepoznal.
Res je, da bolj ko so te samodejne opombe potrjene, bolje je. Vendar pa obstaja na tisoče teh avtomatiziranih opomb, in imajo človeški potrjevalci gredo skozi njih, je proces, ki zahteva veliko virov. Namesto tega pregledamo vzorec oznak, ki je izbran, da lahko sklepamo o vseh samodejnih oznakah.
Pri izbiri vzorca je treba upoštevati številne dejavnike. Za analizo metapodatkov mora vzorec zajemati različna metapodatkovna polja z različnimi dolžinami besedila, upoštevati ocene gotovosti, ki jih algoritmi za opombe dodelijo svojim opombam (ki kažejo, kako prepričani so, da so pravilni), in tako naprej. Podobno mora vzorec za analizo vsebine ohraniti uravnoteženo predstavitev elementov z različnimi značilnostmi vsebine, na primer z različnimi barvami in različnimi vrstami predmetov.

Analiziranje človeških povratnih informacij za izboljšanje naših obogatitev
Prizadevamo si analizirati korelacijo med samodejnimi ocenami zaupanja, ki jih dodelijo naši algoritmi za označevanje, in človeškimi presojami, da lahko ugotovimo, kakšen je ustrezen prag za to, da se samodejno označevanje šteje za veljavno ali ne. Na primer, če ljudje ponavadi sprejmejo vse pripombe o vzorcih, za katere je avtomatizirani model dal oceno zaupanja 80 % ali več, se lahko odločimo, da se lahko vse pripombe nad to oceno samodejno sprejmejo kot veljavne. Človeške validacije nam lahko pomagajo tudi pri ocenjevanju in primerjanju učinkovitosti različnih algoritmov. Ta zadnji cilj je cilj nedavno začete kampanje crowdsourcinga, katere cilj je oceniti rezultate dveh različnih algoritmov za zaznavanje barv. Pomagate nam lahko tudi pri ocenjevanju naših modelov zaznamkov!
Nazadnje želimo uporabiti človeške povratne informacije za izboljšanje natančnosti samih avtomatskih algoritmov. Čeprav preusposabljanje algoritmov, ki temeljijo na tehnikah strojnega učenja, ni med cilji projekta CRAFTED, nam lahko človeške povratne informacije pomagajo prilagoditi algoritme k doseganju rezultatov z večjo natančnostjo.
Sodelujte
Če nam želite pomagati oceniti rezultate naših algoritmov za zaznavanje barv, vas vabimo, da sodelujete v eni od naslednjih kampanj množičnega financiranja:
