Izziv večjezičnih metapodatkov
Europeana uporablja zbirke, opisane v kar 37 jezikih, in si prizadeva, da bi jih primerjala z iskalnimi izrazi, ki se lahko pojavijo v katerem koli jeziku. Vsi predmeti v zbirkah na spletišču Europeane so opisani v nizu metapodatkovnih polj, ki vsebujejo bistvene informacije o njih, kot sta njihov naslov in avtor. Te informacije ljudem pomagajo odkriti in razumeti predmete, ki jih zanimajo. Trenutno večina zapisov vsebuje izraze v enem jeziku, tj. jeziku ponudnikov podatkov. To pomanjkanje večjezičnih metapodatkov ovira cilj Europeane, da bi ponudila širok dostop do svoje zbirke v vseh jezikih.
Obravnavanje večjezičnosti v zvezi s tem je precej zahtevno prizadevanje. Metapodatki niso naravni jezik s popolnimi stavki in predvidljivo slovnico; pogosto je predstavljen v kratkih stavkih ali celo posameznih besedah, kar pomeni, da je težko najti kontekst, potreben za natančen prevod. Poleg tega so lahko uporabljeni izrazi zelo specifični; morda so videti kot splošni izraz, vendar imajo drugačen pomen, kadar se uporabljajo v okviru kulturne dediščine.
Na primer, grški verski izraz, ki odraža zadnjo večerjo, bi lahko napačno prevedli kot tajno večerjo. Posledica tega netočnega prevoda - ali neobstoj prevoda v angleščino v celoti - bi bila, da grški artefakti z naslovom ali opisom, ki se nanašajo na določeno temo, ne bi bili med rezultati, ko nekdo išče slike o zadnji večerji na spletni strani Europeane.
Gradnja mostu med skupnostjo Europeane in skupnostjo digitalnih storitev eTranslation
Kako projekt Europeana Translate sodeluje z drugimi deležniki in orodji za reševanje tega izziva?
eTranslation, ki ga je razvila Evropska komisija, je jezikovno orodje, ustvarjeno z uporabo najnovejših tehnologij umetne inteligence, in je bilo usposobljeno za velike količine podatkov, ki so na voljo interno in se zbirajo z zbiranjem jezikovnih virov po vsej EU. V repozitoriju ELRC-SHARE, ki ga uporablja eTranslation DSI, je kulturna dediščina premalo zastopana, zato so obstoječe tehnološke rešitve slabše opremljene za obravnavo posebnih vidikov podatkov o kulturni dediščini.
V zvezi s tem je vzpostavitev sodelovanja med deležniki iz skupnosti Europeana in eTranslation ključna za prilagoditev orodij za strojno prevajanje, da bodo lahko služila posebnim potrebam na področju kulturne dediščine. Europeana Translate si prizadeva združiti eTranslation in skupnosti Europeana, da bi obravnavali izzive, s katerimi se srečujeta oba sektorja. Za izboljšanje večjezičnega dostopa do digitalne kulturne dediščine so potrebne številne dopolnilne vloge in strokovno znanje, ki jih zagotavljajo različni partnerji Europeane Translate (glejtukaj).
Eksperimenti s strojnim prevajanjem
V zadnjih nekaj mesecih so projektni partnerji sodelovali pri izbiri in ustreznem segmentiranju in čiščenju zapisov metapodatkov s spletne strani Europeane. Te podatke je nato uporabil projektni partner Pangeanic, ki jih je uporabil poleg 12 milijonov prevodnih besedilnih segmentov iz obstoječih generičnih jezikovnih virov za izboljšanje natančnosti algoritmov strojnega prevajanja pri prevajanju metapodatkov kulturne dediščine.
Pangeanic je izvedel številne poskuse ob upoštevanju različnih kombinacij podatkov o treningu. To je vključevalo dvojezične metapodatke Europeane, sintetične podatke, pridobljene iz metapodatkov v enem jeziku, in večjezične besednjake, pomembne za področje kulturne dediščine. Poleg Europeane so bili upoštevani tudi alternativni viri podatkov za jezike, za katere obstaja le malo virov s prevodi v angleščino ali pa jih sploh ni. Samodejno ocenjevanje teh poskusov z uporabo uveljavljenih metrik je partnerjem omogočilo, da se odločijo za nastavitev najkakovostnejših samodejnih prevodov in jih primerjajo z rezultati, doseženimi z drugimi prevajalskimi orodji, kot sta Google Translate in eTranslate. Na splošno ocena kaže izboljšave rezultatov v primerjavi s splošnimi modeli za večino jezikov.
Strojni prevajalniki, ki bodo rezultat tega postopka, se bodo uporabljali za prevajanje metapodatkov iz 23 uradnih jezikov EU v angleščino (24. uradni jezik). Ti prevajalski mehanizmi se bodo uporabljali za ustvarjanje samodejnih prevodov v angleščino za vsaj 25 milijonov zapisov metapodatkov na platformi Europeana. Prevodi bodo indeksirani in prikazani, kar bo izboljšalo večjezično uporabniško izkušnjo na platformi Europeana. Ob ponovnem obisku osebe, ki išče artefakte, navdihnjene z versko temo "Zadnje večerje", bodo po zaključku prevoda Europeane lahko dostopali tudi do slik iz Grčije, Romunije in številnih drugih držav, ki trenutno niso vključene v rezultate iskanja.
Poleg tega bo Europeana Translate na podlagi brezplačne licence za ponovno uporabo (CC0) dala na voljo izbrane in ustrezno obdelane jezikovne vire, ki jih je ustvarila prek repozitorija ELRC-SHARE. To bo skupnosti strojnega prevajanja omogočilo, da uporabi odprte podatke za usposabljanje, prilagajanje in preskušanje svojih prevajalskih storitev na področju kulturne dediščine.
Vključevanje ljudi v zanko
V prihodnjih mesecih bodo jezikoslovci in strokovnjaki za kulturno dediščino izvedli dve dopolnjujoči se oceni samodejnih prevodov, pripravljenih s poskusi.
Orodje za ocenjevanje strojnega prevajanja se bo uporabljalo za ocenjevanje natančnosti in zmogljivosti vseh 23 prevajalskih strojev. Organizirane bodo tri kampanje črpanja iz množic, da bi strokovnjaki za kulturno dediščino pomagali testirati in oceniti samodejno prevajanje (jeziki, ki jih je treba oceniti v zvezi s tem, so francoščina, italijanščina in nizozemščina). Kampanje bodo pritegnile tudi občinstvo in povečale ozaveščenost skupnosti na področju kulturne dediščine o moči storitev avtomatskega prevajanja. Platforma CrowdHeritage se bo uporabljala za predstavitev samodejnih prevodov v okviru predmetov kulturne dediščine, na katere se nanašajo.
Rezultati teh ocen bodo zagotovili koristen vpogled in se bodo uporabili za določitev sprejemljivega praga kakovosti za objavo samodejnih prevodov v Europeano in za uporabo na platformah organizacij za varstvo kulturne dediščine.
Izvedite več in se vključite
Če želite izvedeti več, si lahko ogledate uvodni videoposnetek, videoposnetek o prvih rezultatih projekta ali preberete o arhitekturi Europeane Translate v tem dokumentu, ki ga je predstavilo Evropsko združenje za strojno prevajanje 2022. Strokovnjaki na avdiovizualnem, modnem in muzejskem področju bodo lahko k projektu prispevali tako, da bodo pomagali oceniti rezultate naših nišnih kampanj, ki bodo potekale v začetku leta 2023. Več informacij je na voljo na spletni strani dogodka Europeana Pro.
