Mitmekeelsete metaandmete probleem
Europeana töötab kogudega, mida on kirjeldatud vähemalt 37 keeles, ja püüab neid sobitada otsinguterminitega, mis võivad esineda mis tahes keeles. Kõiki Europeana veebisaidi kogusid kirjeldatakse metaandmete väljadel, mis edastavad nende kohta olulist teavet, näiteks nende pealkirja ja loojat. See teave aitab inimestel avastada ja mõista objekte, mida nad huvitavad. Praegu sisaldab enamik kirjeid termineid ühes keeles, st andmeesitajate keeles. Mitmekeelsete metaandmete puudumine takistab Europeana eesmärki pakkuda laialdast juurdepääsu oma kogudele kõigis keeltes.
Mitmekeelsusega tegelemine on selles osas üsna keeruline ettevõtmine. Kõigepealt ei ole metaandmed loomulik keel, millel on täielikud laused ja prognoositav grammatika; see on sageli esitatud lühikeste fraaside või isegi üksikute sõnadega, mis tähendab, et täpse tõlke jaoks vajalikku konteksti on raske leida. Lisaks võivad kasutatavad terminid olla väga spetsiifilised; need võivad tunduda üldmõistena, kuid neil on kultuuripärandi kontekstis erinev tähendus.
Näiteks Kreeka religioosne termin, mis peegeldab viimast õhtusööki, võib olla valesti tõlgitud kui salajane õhtusöök. Selle ebatäpse tõlke mõju - või üldse tõlke puudumine inglise keelde - oleks see, et konkreetsele teemale viitava pealkirja või kirjeldusega kreeka artefaktid ei ilmuks tulemuste hulgas, kui keegi otsib Europeana veebisaidilt viimase õhtusöögi maalid.
Sildade loomine Europeana ja eTranslationi digiteenuste kogukondade vahel
Kuidas teeb Europeana Translate projekt selle probleemi lahendamiseks koostööd teiste sidusrühmade ja vahenditega?
Euroopa Komisjoni poolt välja töötatud eTranslation on keelevahend, mis on loodud uusimaid tehisintellekti tehnoloogiaid kasutades ning mida on koolitatud nii asutusesiseselt kättesaadavate kui ka kogu ELi hõlmava keeleressursside kogumise käigus kogutud suurte andmehulkade alal. eTranslation DSI kasutatavas ELRC-SHARE hoidlas on kultuuripärand alaesindatud ja seetõttu on olemasolevad tehnoloogilised lahendused kultuuripärandi andmete konkreetsete aspektide käsitlemiseks vähem varustatud.
Sellega seoses on koostöö loomine Europeana ja eTranslationi kogukondade sidusrühmade vahel oluline masintõlkevahendite kohandamiseks, et need vastaksid kultuuripärandi valdkonna erivajadustele. Europeana Translate püüab ühendada eTranslationi ja Europeana kogukonnad, et lahendada mõlema sektori ees seisvaid probleeme. Digitaalsele kultuuripärandile mitmekeelse juurdepääsu parandamiseks on vaja mitmeid täiendavaid rolle ja eksperditeadmisi, mida täidavad Europeana Translate’i erinevad partnerid (vtneid siin).
Eksperimendid masintõlke abil
Viimastel kuudel on projektipartnerid teinud koostööd, et valida ja asjakohaselt segmentida ning puhastada metaandmete kirjeid Europeana veebisaidilt. Seejärel kasutas neid andmeid projektipartner Pangeanic, kes kasutas neid lisaks olemasolevatest üldkeeleressurssidest pärit 12 miljonile tõlketeksti segmendile, et parandada masintõlke algoritmide täpsust kultuuripärandi metaandmete tõlkimisel.
Pangeanic viis läbi mitmeid katseid, võttes arvesse erinevaid koolitusandmete kombinatsioone. See hõlmas Europeana kakskeelseid metaandmeid, ühes keeles metaandmetest saadud sünteetilisi andmeid ja kultuuripärandi valdkonnaga seotud mitmekeelseid sõnastikke. Lisaks Europeanale kaaluti alternatiivseid andmeallikaid ka keelte puhul, mille jaoks on ingliskeelseid tõlkeid vähe või üldse mitte. Nende katsete automaatne hindamine, kasutades väljakujunenud parameetreid, võimaldas partneritel otsustada parima kvaliteediga automaattõlgete seadistuse üle ja võrrelda neid muude tõlkevahenditega, nagu Google Translate ja eTranslate, saavutatud tulemustega. Üldiselt näitab hindamine tulemuste paranemist võrreldes enamiku keelte puhul kasutatavate üldiste mudelitega.
Sellest protsessist tulenevaid masintõlkemootoreid kasutatakse metaandmete tõlkimiseks ELi 23 ametlikust keelest inglise keelde (24. ametlik keel). Neid tõlkemootoreid kasutatakse automaatsete ingliskeelsete tõlgete loomiseks vähemalt 25 miljoni metaandmete kirje jaoks Europeana platvormil. Tõlked indekseeritakse ja kuvatakse, mis parandab Europeana platvormi mitmekeelset kasutajakogemust. Vaadates üle isik, kes otsib artefakte, mis on inspireeritud "Viimase õhtusöömaaja" religioossest teemast, saavad nad pärast Europeana Translate'i valmimist juurdepääsu ka Kreeka, Rumeenia ja paljude teiste riikide maalidele, mis praegu otsingutulemustesse ei kuulu.
Lisaks teeb Europeana Translate ELRC-SHARE hoidla kaudu tasuta taaskasutamise litsentsi (CC0) alusel avalikult kättesaadavaks valitud ja nõuetekohaselt töödeldud keeleressursid. See võimaldab masintõlke kogukonnal kasutada avatud andmeid, et koolitada, kohandada ja katsetada oma tõlketeenuseid kultuuripärandi valdkonnas.
Inimeste kaasamine silmusesse
Lähikuudel viivad keeleteadlased ja kultuuripärandi spetsialistid läbi katsetega loodud automaattõlgete kaks täiendavat hindamist.
Masintõlke hindamisvahendit kasutatakse kõigi 23 tõlkemootori täpsuse ja jõudluse hindamiseks. Korraldatakse kolm rahvahankekampaaniat, et kaasata kultuuripärandi spetsialiste automaattõlke katsetamisse ja hindamisse (sellega seoses hinnatakse ka prantsuse, itaalia ja hollandi keeli). Kampaaniad kaasavad ka publikut ja suurendavad kultuuripärandi kogukonna teadlikkust automaattõlketeenuste mõjust. Platvormi CrowdHeritage kasutatakse automaattõlgete esitamiseks seoses kultuuripärandi objektidega, millele need viitavad.
Nende hindamiste tulemused annavad kasulikku teavet ja neid kasutatakse vastuvõetava kvaliteedikünnise kindlaksmääramiseks, et avaldada automaatseid tõlkeid Europeanasse ja kasutada neid kultuuripärandiorganisatsioonide enda platvormidel.
Uurige lähemalt ja osalege
Lisateabe saamiseks võite vaadata sissejuhatavat videot, videot projekti esimeste tulemuste kohta või lugeda Europeana Translate arhitektuuri kohta käesolevas dokumendis, mida esitleti Euroopa Masintõlke Assotsiatsioonis 2022. Audiovisuaal-, moe- ja muuseumivaldkonna spetsialistidel on võimalus projektile kaasa aidata, aidates hinnata tulemusi meie nišihankekampaaniates, mis toimuvad 2023. aasta alguses. Lisateabe saamiseks hoidke silm peal Europeana Pro ürituse lehel.
