Papildydami kultūros paveldo metaduomenis geresnėmis žymomis ir aprašymais, kiekvienas gali lengviau ieškoti ir rasti šiuos kultūros paveldo objektus, o tai reiškia, kad greičiau ir lengviau rasite tai, ko jums reikia. Naujausia IT ir dirbtinio intelekto pažanga suteikia puikių galimybių automatiškai praturtinti kultūros paveldo metaduomenis minimaliais ištekliais. Tačiau žmonių įtraukimas į šį darbą tebėra svarbus. Projekte CRAFTED amatų paveldą laikome atvejo tyrimu, kad sukurtume, įgyvendintume ir išbandytume metodiką, pagal kurią algoritmai derinami su žmogaus atliekamu patvirtinimu siekiant dideliu mastu praturtinti kultūros paveldo metaduomenis.
Metodiką, kurią apibūdiname toliau, sudaro keturi pagrindiniai etapai: duomenų analizė; automatinis sodrinimas; žmonių sodrinimo patvirtinimas; ir patobulinimų tobulinimas remiantis patvirtinimo rezultatais. Kiekviename šio proceso etape susidūrėme su keliais esminiais klausimais. Kokio pobūdžio papildymas yra naudingas įvairių rūšių duomenims? Kaip mes parenkame tinkamus mėginius žmogaus patvirtinimui? Kaip nustatyti priimtinas automatinio praturtėjimo kokybės ribas?
Duomenų analizė
Norint nustatyti reikalavimus, kuriuos turi atitikti mūsų priemonės, labai svarbu išsamiai suprasti praturtinimui pasirinktų rinkinių metaduomenis ir turinį, taip pat apibrėžti atitinkamus praturtinimo tikslus. Svarbu ištirti skirtingas kiekvieno metaduomenų lauko kalbas ir semantiką, taip pat tai, kaip jų vertės yra struktūrizuotos (pavyzdžiui, žiūrint į lauką, kuriame perduodama erdvinė informacija, galima sužinoti, kad jo vertė dažnai yra struktūrizuota „miesto / regiono“ formatu). Taip pat reikia išnagrinėti turinio savybes, kad būtų nustatytos reikšmingos savybės, kurias galima gauti iš jo, atsižvelgiant į tokius aspektus kaip galima vaizdo skiriamoji geba ir tai, kaip objektai vaizduojami vaizduose.
Automatinis sodrinimas
Projekte CRAFTED mes taikėme įvairias priemones, skirtas analizuoti tekstinius metaduomenis ir įvairių kolekcijų, turinčių skirtingas savybes ir praturtinimo poreikius, turinį. Metaduomenų analizei naudojome Atėnų nacionalinio technikos universiteto sukurtą platformą SAGE (Semantic Annotation and Generation of Enrichments). Platforma gali analizuoti tekstinius metaduomenis įvairiomis kalbomis ir nustatyti įvairias metaduomenyse minimas konkrečiam atvejui tinkamas sąvokas (pvz., medžiagas ir metodus). Tada ji gali susieti juos su terminais iš konkrečių sričių internetinių žodynų, pvz., Europeanos mados tezauro, kuris apima su mada susijusias sąvokas. Jis taip pat gali atlikti bendresnio pobūdžio objektų išgavimą, kad nustatytų organizacijas, vietas ir žmones ir sujungtų juos su susietomis atviromis žinių bazėmis, tokiomis kaip "Wikidata".
Kartu išbandėme keletą priemonių, kuriomis analizuojami vaizdai ir vaizdo įrašai. Mes eksperimentavome su dviem pagrindiniais spalvų aptikimo metodais: pirmuoju metodu priekiniai intelektiniai ištekliai atskiriami nuo fono, o po to bandoma išgauti aptiktų priekinių intelektinių išteklių spalvą (-as). Antrasis metodas iš esmės daro tą patį, tačiau jam padeda apmokytas objektų aptikimo algoritmas. Mes taip pat bandėme aptikti ir išgauti rašytinį tekstą iš vaizdų naudodami OCR (optinį simbolių atpažinimą). Galiausiai iš vaizdo įrašų ištraukėme tekstines transkripcijas, kurių rezultatai buvo įvairūs, priklausomai nuo šnekamosios kalbos.
Žmogaus atliekamas patvirtinimas
Trečiajame metodikos etape žmonės raginami patikrinti automatizuoto anotavimo etapo rezultatus ir juos priimti arba atmesti. Žmogiškieji tvirtintojai taip pat gali pridėti naujų anotacijų, kurių automatinis algoritmas nenustatė.
Žinoma, kuo daugiau šių automatinių anotacijų patvirtinama, tuo geriau. Tačiau yra tūkstančiai šių automatinių anotacijų, o žmogiškųjų tvirtintojų perėjimas per juos yra labai daug išteklių reikalaujantis procesas. Taigi vietoj to mes peržiūrime pasirinktų anotacijų imtį, kad galėtume padaryti išvadas apie visas automatines anotacijas.
Atrenkant imtį reikia atsižvelgti į keletą veiksnių. Atliekant metaduomenų analizę, imtis turi apimti skirtingus metaduomenų laukus, kurių teksto ilgis yra skirtingas, atsižvelgti į tikrumo balus, kuriuos anotacijų algoritmai priskyrė jų anotacijoms (kurie rodo, kaip įsitikinę, kad jie yra teisingi), ir pan. Analogiškai, analizuojant turinį, mėginyje turi būti išlaikytas subalansuotas skirtingų turinio charakteristikų elementų, pavyzdžiui, skirtingų spalvų ir skirtingų rūšių objektų, vaizdas.

Analizuoti žmonių atsiliepimus, siekiant patobulinti mūsų praturtinimą
Mes siekiame išanalizuoti koreliaciją tarp automatinių pasitikėjimo balų, priskirtų mūsų anotavimo algoritmų, ir žmogaus sprendimų, kad galėtume nustatyti, kokia yra tinkama riba, kad automatinę anotaciją būtų galima laikyti galiojančia ar ne. Pavyzdžiui, jei žmonės linkę priimti visas pavyzdžių anotacijas, kurioms automatizuotas modelis suteikė 80 proc. ar didesnį patikimumo balą, galime nuspręsti, kad visos tą balą viršijančios anotacijos gali būti automatiškai priimtos kaip tinkamos. Žmogaus įteisinimas taip pat gali padėti mums įvertinti ir palyginti skirtingų algoritmų efektyvumą. Paskutinis tikslas – neseniai pradėtos visuomenės patalkos kampanijos, kuria siekiama įvertinti dviejų skirtingų spalvų aptikimo algoritmų rezultatus, tikslas. Jūs taip pat galite padėti mums įvertinti mūsų anotacijų modelius!
Galiausiai norime naudoti žmonių atsiliepimus, kad pagerintume pačių automatinių algoritmų tikslumą. Nors perkvalifikuoti algoritmus, kurie remiasi mašininio mokymosi metodais, nėra vienas iš projekto CRAFTED tikslų, žmonių atsiliepimai gali padėti mums pakoreguoti algoritmus siekiant didesnio tikslumo rezultatų.
Dalyvaukite
Jei norite padėti mums įvertinti spalvų aptikimo algoritmų rezultatus, kviečiame prisidėti prie vienos iš šių visuomenės patalkos kampanijų:
