Obohatenie metaúdajov o kultúrnom dedičstve o lepšie značky a opisy uľahčuje každému vyhľadávať a nájsť tieto predmety kultúrneho dedičstva, čo znamená, že nájdete to, čo potrebujete, rýchlejšie a jednoduchšie. Nedávny pokrok v oblasti IT a umelej inteligencie ponúka pozoruhodné príležitosti na automatické obohacovanie metaúdajov o kultúrnom dedičstve s minimálnymi zdrojmi. Zapojenie ľudí do tejto práce je však naďalej dôležité. V projekte CRAFTED berieme remeselné dedičstvo ako prípadovú štúdiu s cieľom vytvoriť, zaviesť a otestovať metodiku, ktorá kombinuje algoritmy s ľudskou validáciou na obohatenie metaúdajov o kultúrnom dedičstve vo veľkom rozsahu.
Metodika, ktorú uvádzame nižšie, pozostáva zo štyroch hlavných krokov: analýza údajov; automatické obohacovanie; validácia obohatenia ľuďmi; a rafinácia obohatení na základe výsledkov validácie. V každom kroku tohto procesu sme sa stretli s niekoľkými zásadnými otázkami. Aké druhy obohatenia sú užitočné pre rôzne typy údajov? Ako vyberáme vhodné vzorky na ľudskú validáciu? Ako môžeme stanoviť prijateľné kvalitatívne limity pre automatické obohacovanie?
Analýza údajov
Získanie podrobného pochopenia metaúdajov a obsahu v zbierkach vybraných na obohatenie, ako aj definovanie cieľov obohatenia vhodných pre daný prípad, je kľúčovým prvým krokom pri určovaní požiadaviek, ktoré musia naše nástroje spĺňať. Je dôležité študovať rôzne jazyky a sémantiku každého poľa metaúdajov, ako aj spôsob, akým sú štruktúrované ich hodnoty (napríklad pri pohľade na pole, ktoré vyjadruje priestorové informácie, by sa mohlo zistiť, že jeho hodnota je často štruktúrovaná vo formáte „mesto/región“). Podobne sa musia preskúmať vlastnosti obsahu, aby sa identifikovali zmysluplné vlastnosti, ktoré z neho možno odvodiť, pričom sa zohľadnia aspekty, ako je dostupné rozlíšenie obrazu a spôsob zobrazenia objektov na obrázkoch.
Automatické obohacovanie
V projekte CRAFTED sme použili množstvo rôznych nástrojov na analýzu textových metaúdajov a obsahu širokej škály zbierok s rôznymi charakteristikami a potrebami obohatenia. Na analýzu metaúdajov sme použili platformu SAGE (sémantická anotácia a generácia obohatení) vyvinutú Národnou technickou univerzitou v Aténach. Platforma dokáže analyzovať textové metaúdaje v rôznych jazykoch a identifikovať širokú škálu pojmov vhodných pre jednotlivé prípady (ako sú materiály a techniky) uvedených v metaúdajoch. Potom ich môže prepojiť s pojmami z online slovníkov špecifických pre danú oblasť, ako je napríklad tezaurus Europeana Fashion, ktorý zahŕňa koncepcie súvisiace s módou. Môže tiež vykonávať extrakciu pomenovaných entít na všeobecné účely s cieľom identifikovať organizácie, miesta a ľudí a prepojiť ich s prepojenými otvorenými vedomostnými základňami, ako sú Wikidáta.
Zároveň sme vyskúšali niekoľko nástrojov, ktoré analyzujú obrázky a videá. Experimentovali sme s dvoma hlavnými prístupmi k detekcii farieb: prvý prístup rozlišuje popredie od pozadia, po ktorom sa pokúša extrahovať farbu (farby) zisteného popredia. Druhý prístup v podstate robí to isté, ale je podporovaný vyškoleným algoritmom detekcie objektov. Snažili sme sa tiež detekovať a extrahovať písaný text z obrázkov pomocou OCR (Optical Character Recognition). Nakoniec sme extrahovali textové prepisy z videí so zmiešanými výsledkami v závislosti od hovoreného jazyka.
Validácia človekom
V treťom kroku metodiky sa ľudia vyzývajú, aby skontrolovali výsledky automatizovaného kroku anotácie a prijali alebo zamietli ich. Ľudskí validátori môžu tiež pridať nové poznámky, ktoré automatický algoritmus nedokázal identifikovať.
Je pravda, že čím viac týchto automatických poznámok je overených, tým lepšie. Existujú však tisíce týchto automatizovaných poznámok a ich overenie ľudskými overovateľmi je veľmi náročný proces. Takže namiesto toho preskúmame vzorku anotácií, ktorá je vybraná, aby sme mohli vyvodiť závery o všetkých automatických anotáciách.
Pri výbere vzorky je potrebné zohľadniť niekoľko faktorov. Pokiaľ ide o analýzu metaúdajov, vzorka musí zahŕňať rôzne polia metaúdajov s rôznymi dĺžkami textu, zvážiť skóre istoty, ktoré algoritmy anotácií priradili svojim anotáciám (čo naznačuje, do akej miery sú presvedčení, že sú správne), a tak ďalej. Podobne aj pri analýze obsahu musí vzorka zachovávať vyvážené zastúpenie položiek s rôznymi vlastnosťami obsahu, napríklad s rôznymi farbami a rôznymi typmi objektov.

Analýza spätnej väzby od ľudí s cieľom spresniť naše obohatenie
Naším cieľom je analyzovať koreláciu medzi skóre automatickej spoľahlivosti priradené našimi anotačnými algoritmami a ľudskými úsudkami, aby sme mohli určiť, aká je vhodná prahová hodnota na to, aby sme automatickú anotáciu považovali za platnú alebo nie. Napríklad, ak ľudia majú tendenciu akceptovať všetky anotácie vzoriek, pre ktoré automatizovaný model udelil skóre spoľahlivosti 80 % alebo vyššie, môžeme sa rozhodnúť, že všetky anotácie nad týmto skóre môžu byť automaticky akceptované ako platné. Ľudská validácia nám tiež môže pomôcť vyhodnotiť a porovnať účinnosť rôznych algoritmov. Tento posledný cieľ je cieľom nedávno iniciovanej crowdsourcingovej kampane, ktorej cieľom je vyhodnotiť výsledky vytvorené dvoma rôznymi algoritmami detekcie farieb. Môžete nám tiež pomôcť vyhodnotiť naše anotačné modely!
Nakoniec chceme použiť ľudskú spätnú väzbu na zlepšenie presnosti samotných automatických algoritmov. Hoci rekvalifikačné algoritmy, ktoré sa spoliehajú na techniky strojového učenia, nepatria medzi ciele projektu CRAFTED, spätná väzba od ľudí nám môže pomôcť vylepšiť algoritmy tak, aby sa dosiahli výsledky s vyššou presnosťou.
Zapojte sa
Ak nám chcete pomôcť vyhodnotiť výsledky našich algoritmov detekcie farieb, vyzývame vás, aby ste prispeli k jednej z nasledujúcich kampaní crowdsourcingu:
