Izazov višejezičnih metapodataka
Europeana radi s zbirkama opisanima na najmanje 37 jezika i nastoji ih uskladiti s pojmovima za pretraživanje koji se mogu pojaviti na bilo kojem jeziku. Svi predmeti u zbirkama na internetskim stranicama Europeane opisani su u skupu polja s metapodacima koja prenose bitne informacije o njima, kao što su njihov naslov i autor. Ove informacije pomažu ljudima da otkriju i razumiju predmete koji ih zanimaju. Trenutačno većina zapisa sadržava pojmove na jednom jeziku, jeziku pružatelja podataka. Taj nedostatak višejezičnih metapodataka otežava cilj Europeane da ponudi širok pristup svojoj zbirci na svim jezicima.
Rješavanje problema višejezičnosti u tom pogledu prilično je zahtjevan pothvat. Za početak, metapodaci nisu prirodni jezik s potpunim rečenicama i predvidljivom gramatikom; često se prikazuje u kratkim frazama ili čak pojedinačnim riječima, što znači da je teško pronaći kontekst potreban za točan prijevod. Osim toga, upotrijebljeni pojmovi mogu biti vrlo specifični; mogu izgledati kao opći pojam, ali imaju različito značenje kada se upotrebljavaju u kontekstu kulturne baštine.
Na primjer, grčki vjerski izraz koji odražava Posljednju večeru mogao bi se pogrešno prevesti kao Tajna večera. Posljedica ovog netočnog prijevoda - ili izostanka prijevoda na engleski jezik - bila bi da se grčki artefakti s naslovom ili opisom koji se odnosi na određenu temu ne bi pojavili među rezultatima kada netko traži slike o Posljednjoj večeri na web stranici Europeane.
Izgradnja mosta između Europeane i zajednica digitalnih usluga eTranslation
Kako projekt Europeana Translate surađuje s drugim dionicima i alatima za rješavanje tog izazova?
Sustav eTranslation, koji je razvila Europska komisija, jezični je alat izrađen primjenom najnovijih tehnologija umjetne inteligencije i osposobljen je za prikupljanje velikih količina podataka dostupnih interno i prikupljenih u okviru prikupljanja jezičnih resursa na razini EU-a. U repozitoriju ELRC-SHARE koji upotrebljava DSI za eTranslation kulturna baština nedovoljno je zastupljena, zbog čega su postojeća tehnološka rješenja manje opremljena za obradu posebnih aspekata podataka o kulturnoj baštini.
U tom je kontekstu izgradnja suradnje između dionika iz zajednica Europeane i eTranslationa ključna za prilagodbu alata za strojno prevođenje kako bi mogli zadovoljiti posebne potrebe područja kulturne baštine. Europeana Translate nastoji okupiti zajednice eTranslation i Europeana kako bi se riješili izazovi s kojima se susreću oba sektora. Za poboljšanje višejezičnog pristupa digitalnoj kulturnoj baštini potreban je niz komplementarnih uloga i stručnog znanja kojima služe razni partneri Europeana Translatea (vidjetiih ovdje).
Eksperimenti sa strojnim prevođenjem
Tijekom proteklih nekoliko mjeseci projektni partneri su surađivali na odabiru i odgovarajućem segmentiranju i čišćenju zapisa metapodataka s web-mjesta Europeane. Te je podatke zatim iskoristio projektni partner Pangeanić, koji ih je iskoristio uz 12 milijuna prijevodnih tekstualnih segmenata iz postojećih generičkih jezičnih resursa kako bi poboljšao točnost algoritama strojnog prevođenja pri prevođenju metapodataka kulturne baštine.
Pangeanic je proveo niz eksperimenata s obzirom na različite kombinacije podataka o treningu. To je uključivalo dvojezične metapodatke iz Europeane, sintetičke podatke dobivene iz metapodataka na jednom jeziku i višejezične rječnike relevantne za područje kulturne baštine. Alternativni izvori podataka, osim Europeane, također su uzeti u obzir za jezike za koje postoji malo ili nimalo resursa s prijevodima na engleski jezik. Automatska procjena tih eksperimenata pomoću uspostavljenih mjernih podataka omogućila je partnerima da odluče o postavci za najkvalitetnije automatske prijevode i usporede ih s rezultatima postignutima drugim alatima za prevođenje, kao što su Google Translate i eTranslate. Općenito, evaluacija pokazuje poboljšanja rezultata u usporedbi s generičkim modelima za većinu jezika.
Motori za strojno prevođenje koji proizlaze iz tog postupka upotrebljavat će se za prevođenje metapodataka s 23 službena jezika EU-a na engleski (24. službeni jezik). Ti će se prevoditeljski motori upotrebljavati za izradu automatskih prijevoda na engleski jezik za najmanje 25 milijuna zapisa metapodataka na platformi Europeana. Prijevodi će biti indeksirani i prikazani, čime će se poboljšati višejezično korisničko iskustvo na platformi Europeana. Osvrćući se na osobu koja traži artefakte inspirirane vjerskom temom "Posljednje večere", nakon završetka Europeana Translatea moći će pristupiti i slikama iz Grčke, Rumunjske i mnogih drugih zemalja koje trenutno nisu uključene u rezultate pretraživanja.
Nadalje, Europeana Translate stavit će na raspolaganje odabrane i primjereno obrađene jezične resurse koje je proizveo putem repozitorija ELRC-SHARE na temelju dozvole za besplatnu ponovnu uporabu (CC0). Time će se zajednici za strojno prevođenje omogućiti da se koristi otvorenim podacima za osposobljavanje, prilagodbu i testiranje svojih prevoditeljskih usluga u području kulturne baštine.
Uključivanje ljudi u petlju
U narednim mjesecima lingvisti i stručnjaci za kulturnu baštinu provest će dvije komplementarne evaluacije automatskih prijevoda proizvedenih eksperimentima.
Alat za evaluaciju strojnog prevođenja koristit će se za procjenu točnosti i učinkovitosti svih 23 prevoditeljskih motora. Organizirat će se tri kampanje crowdsourcinga kako bi se stručnjaci za kulturnu baštinu uključili u testiranje i evaluaciju automatskog prevođenja (jezici koji će se ocjenjivati u tom pogledu uključuju francuski, talijanski i nizozemski). Kampanje će također uključiti publiku i podići svijest u zajednici kulturne baštine o snazi usluga automatskog prevođenja. Platforma CrowdHeritage koristit će se za predstavljanje automatskih prijevoda u kontekstu predmeta kulturne baštine na koje se odnose.
Rezultati tih evaluacija pružit će korisne uvide i upotrijebit će se za utvrđivanje prihvatljivog praga kvalitete za objavljivanje automatskih prijevoda na Europeanu i za upotrebu na platformama organizacija za kulturnu baštinu.
Saznajte više i uključite se
Da biste saznali više, možete pogledati uvodni videozapis, videozapis o prvim rezultatima projekta ili pročitati o arhitekturi Europeana Translatea u ovom radu predstavljenom na Europskom udruženju za strojno prevođenje 2022. Stručnjaci u području audiovizualne industrije, mode i muzeja imat će priliku doprinijeti projektu pomažući u evaluaciji rezultata u našim kampanjama za nabavu niša, koje će se održati početkom 2023. Pratite stranicu Europeana Pro događanja kako biste saznali više.
