Marco Rendina: Alustame põhitõdedest. Mis on semantiline rikastamine?
Eirini Kaldeli: Semantiline rikastamine on uute semantikate lisamine struktureerimata andmetele, näiteks vaba tekstile, et masinad saaksid seda mõista ja luua sellega ühendusi. Kultuuripärandit kirjeldavate tekstiliste metaandmete puhul saab neid analüüsida ja täiendada lingitud avatud andmestike või sõnastike kontrollitud terminitega, nagu Wikidata või Getty Art & arhitektuuritesaurus (AAT). Neid termineid nimetatakse tavaliselt annotatsioonideks ning need võivad esindada mõisteid ja atribuute (nt „Costume“ või „Renaissance“), isikuid, asukohti, organisatsioone või kronoloogilist perioodi. Näiteks stringid „Leonardo da Vinci“ ja „da Vinci, Leonardo“ võivad mõlemad olla seotud Wikidata elemendiga, mis esindab Itaalia renessansi polümaati.
MR: Miks on oluline rikastada metaandmeid lingitud avatud andmestike või sõnastike terminitega?
EK: Semantiline rikastamine lisab digitaalsetele kogudele tähendust ja konteksti ning muudab need kergemini leitavaks. Arvestades selle tähtsust, on see olnud Europeana algatuse ning üksikute agregaatorite ja andmeesitajate peamine mure ja jõupingutuste kese.
Esiteks muudavad lingitud andmed tekstilised metaandmed üheselt mõistetavaks. Näiteks võib string „Leonardo da Vinci“ olenevalt kontekstist viidata ka Itaalia lennujaamale või sama nimega lahingulaevale. Kõik need mõisted on esindatud Wikidata spetsiaalse URI (Unique Reference Identifier) kaudu ja seega, sidudes teksti õige URIga, saab selgeks, millele tekst viitab.
Teiseks võimaldavad lingitud andmed meil saada lisateavet teatud üksuse kohta, luua seoseid erinevate ressursside vahel ja neid konteksti asetada. Näiteks võimaldab see siduda mõistega „rõngas“ märgistatud esemed laiema mõistega „ehted“ ja siduda need esemetega, mida on rikastatud mõistega „käevõru“, mis on samuti „ehete“ näide.
Lingitud andmetega kaasnevad tavaliselt tõlked, mis parandavad mitmekeelse otsingu võimalusi. See võimaldab veebihoidlate kasutajatel sirvida ja otsida kogusid nn semantilisel tasandil: keegi, kes otsib sõna „κόσμημα“ (kreekakeelne sõna „ehted“), saab avastada nii rõngastena kui ka käevõrudena kirjeldatud esemeid.
MR: Alexandros, metaandmete rikastamine nõuab jõupingutusi ja ressursse, mida kultuuripärandiasutustel sageli napib. Kuidas saavad digitehnoloogiad aidata seda probleemi lahendada?
Alexandros Chortaras: Kultuuripärandiasutused saavad kasutada tipptasemel tehnoloogiaid metaandmete rikastamise käsitsi, aeganõudva ja sageli igapäevase protsessi automatiseerimiseks. Loomuliku keele töötlemise tööriistu saab kasutada tekstiliste metaandmete analüüsimiseks ning struktureerimata tekstis nimetatud üksuste, näiteks isikute või asukohanimede tuvastamiseks ja klassifitseerimiseks. Masinõppel põhinevaid lähenemisviise kasutatakse laialdaselt selleks, et määrata kindlaks üksuse määratlus, mille alusel otsustatakse, kas näiteks tekstis sisalduv viide „Leonardo da Vinci“ viitab Itaalia polümatile või lahingulaevale. Sõltuvalt teksti omadustest, näiteks selle pikkusest ja keelest, sõnavarast, millega soovime selle siduda, ja üksuste tüübist, mida soovime tuvastada, tuleb kombineerida konkreetse ülesande jaoks kõige sobivamad tööriistad. Näiteks varasemate projektidega (nt CRAFTED) saadud kogemuste põhjal võib teatavate ülesannete puhul, millel on selgelt määratletud piiratud kontekst, isegi lihtne lemmatiseerimine ja stringide sobitamine olla asjakohasem kui keerukad ML-põhised algoritmid.
MR: Kuid kas ma saan täielikult usaldada automaatse algoritmi tulemusi? Mis siis, kui ta teeb vigu?
AC: Tõepoolest, automaatsed algoritmid, mis analüüsivad vaba teksti nimega üksuse tuvastamiseks ja täpsustamiseks, teevad vigu. Täpsus sõltub käsilolevast ülesandest ja rakendatud algoritmist. Näiteks lühikestel tekstikirjeldustel, mis on metaandmetes tavalised, puudub kontekst ja seega võivad Wikipedia artiklite põhjal treenitud ML-algoritmid põhjustada valesid vasteid.
Veelgi enam, isegi kui automaatselt tuvastatud lingid on õiged, võib neid pidada teatud kontekstis ebasoovitavaks. Näiteks võib metaandmete kirjete sidumine värve esindavate terminitega olla moekollektsiooni jaoks oluline, kuid see võib olla ebasoovitav teatud värvi mainiva käsikirja kirjeldamiseks. Seega on inimkontroll ja automaatsete märgete valideerimine hädavajalik. Kuna aga automaatseid märkeid on sageli tuhandeid, võib käsitsi valideerimine olla väga ressursimahukas protsess. Praktilisel tasandil peaksid inimesed läbi vaatama märkustest valitud valimi ning sõltuvalt tulemustest ja eesmärgist otsustama asjakohaste filtreerimiskriteeriumide üle.
MR: Viimane küsimus Eirinile. Seal on palju algoritme ja raamatukogusid, kuid tundub, et nende loomiseks on vaja märkimisväärseid tehnilisi teadmisi. Kuidas aitab AI4Culture kultuuripärandiasutustel neid tehnoloogiaid ära kasutada?
ΕΚ: Projekti AI4Culture raames töötame välja platvormi SAGE, mille on välja töötanud Ateena riiklik tehnikaülikool. SAGE hõlbustab kultuuripärandi metaandmete semantilist rikastamist, pakkudes kogumit väljakujunenud annotaatoreid (rikastamismalle), mis on konfigureeritud vastama sektori vajadustele. Platvorm toetab kogu rikastamise töövoogu alates andmete importimisest ja semantiliste märkuste automaatsest koostamisest kuni inimestepoolse valideerimise ja andmete avaldamiseni Europeana poolt eeldatavas vormingus. Vahendit on edukalt kasutatud kultuuripärandi metaandmete rikastamiseks mitmes rakenduses (sealhulgas projektide CRAFTED ja Europeana XX kaudu). Programmi „AI4Culture“ raames on seda laiendatud, et varjata automaatsete semantilise rikastamise algoritmide tehnilist keerukust ja toetada sujuvat koostalitlusvõimet kultuuripärandi ühise Euroopa andmeruumiga. Selleks toetab platvorm kultuuripärandi metaandmetega seotud vorminguid, nagu EDM (Europeana Data Model), ja hõlbustab kultuuripärandiga seotud allikatest, nagu Europeana.eu või mitme Europeana koondaja kasutatav MINT-vahend, pärit metaandmete otseimportimist.
Praegu saavad huvitatud inimesed SAGE'i proovida siin. Lähtekood on saadaval GitHubis (frontend, backend). Saate teada, kuidas SAGE'i kasutada, järgides mitmeid videojuhendeid ja lugedes Wiki juhiseid
Uuri lähemalt
2024. aasta septembris käivitatakse projektiga AI4Culture platvorm, kus tehakse veebis kättesaadavaks avatud vahendid, nagu eespool esitatud semantilise rikastamise vahend SAGE, ning nendega seotud dokumendid ja koolitusmaterjalid. Lisateabe saamiseks jälgige Europeana Pro projekti lehekülge ja jälgige projekti LinkedIn ja X kontot!
