Europeana Prevedi
Projektom eTranslation CEF Telecom Europeana Translate nastoje se ojačati veze između infrastrukture eTranslation i zajedničkog europskog podatkovnog prostora za kulturnu baštinu, koji se provodi u okviru inicijative Europeana, u korist obiju inicijativa. S jedne strane, cilj je projekta poboljšati upotrebljivost resursa kulturne baštine obogaćivanjem skupova podataka o kulturnoj baštini višejezičnim metapodacima. S druge strane, njime se poboljšavaju jezični resursi koji su javno dostupni putem Europske koordinacije jezičnih resursa s pomoću metapodataka iz milijuna predmeta kulturne baštine, koji su pažljivo odabrani, očišćeni i normalizirani kako bi postali prikladni za potrebe osposobljavanja.
U tu je svrhu Europeana Translate razvila i uvela alate za strojno prevođenje prilagođene potrebama sektora kulturne baštine. Alati se primjenjuju za prevođenje metapodataka s više od 25 milijuna zapisa koji su trenutačno dostupni putem infrastrukture Europeane s 22 službena jezika EU-a na engleski, čime se poboljšava višejezično iskustvo koje se pruža korisnicima.
Tijekom projekta partneri su osposobili niz prevoditeljskih motora koje je osigurao partner Pangeanic s odabranim metapodacima odabranima iz infrastrukture Europeane, uključujući dvojezične i jednojezične podatke te višejezične rječnike. Dodatni podaci odabrani s web-mjesta za prikupljanje OPUS-a također su uzeti u obzir za jezike koji nisu bili dovoljno zastupljeni. Proveden je niz eksperimenata kako bi se odlučilo o najboljoj kombinaciji podataka o treningu i uspostavi motora za svaki jezik. Razdvajanjem podataka između skupova za učenje i skupova za testiranje provedena je automatska evaluacija na temelju standardnih parametara (kao što su BLEU i TER) za sve jezične parove. Rezultati pokazuju znatno poboljšanje u odnosu na generičke pangeanske modele (prije osposobljavanja u domeni) i DSI za eTranslation za većinu jezika.
Procjena automatskog prijevoda koju provode ljudski stručnjaci
Automatski prijevodi također su prošli opsežnu evaluaciju lingvista i stručnjaka za kulturnu baštinu. Od ocjenjivača je zatraženo da ocijene automatske prijevode na engleski jezik na ljestvici od 0 do 100, uzimajući u obzir aspekte kao što su tečnost (gramatička točnost), točnost (opće značenje) i prikladnost (odgovarajuća upotreba terminologije). Od njih je zatraženo i da dostave dodatne povratne informacije, uključujući izvješćivanje o važnim i učestalim pogreškama. Putem platforme CrowdHeritage organizirane su tri kampanje crowdsourcinga kako bi se uključili članovi sektora kulturne baštine. Ukupno je u njima sudjelovalo 44 stručnjaka za jezike i 29 stručnjaka za kulturnu baštinu, koji su dali prilično visoke ocjene (iznad 80 %) za većinu od 22 jezika.
Rezultati dobiveni ljudskom evaluacijom pružili su nam uvid u ponašanje strojeva za strojno prevođenje za različite jezike. Detaljna statistička analiza dodijeljenih ocjena ljudi, u korelaciji s automatskim ocjenama pouzdanosti koje su izračunali strojni prevoditelji, omogućila nam je da odredimo odgovarajuće pragove kvalitete za objavljivanje prijevoda s različitih jezika na infrastrukturu Europeane.
Prednosti za korisnike i institucije kulturne baštine
Infrastruktura Europeane upotrebljava se za izradu, indeksiranje, dijeljenje i prikaz automatskih prijevoda metapodataka na engleski jezik, što će ljudima omogućiti bolje otkrivanje, analizu i ponovnu uporabu materijala.
Pozitivan učinak tog rada potvrđen je anketom o procjeni učinka koju je ispunilo 27 lingvista i 18 stručnjaka za kulturnu baštinu. Na pitanje o dodanoj vrijednosti koju automatski prijevodi na engleski jezik mogu donijeti pretraživanju i prikazivanju predmeta kulturne baštine na internetskim stranicama Europeane, obje su zajednice smatrale da je to važno. Također su izvijestili da cijene očekivanu povećanu količinu rezultata pretraživanja, što bi uključivalo predmete kulturne baštine koji se trenutačno ne vraćaju pri pretraživanju na engleskom jeziku: 83,4 % stručnjaka za kulturnu baštinu i 62,9 % lingvista smatralo je to poboljšanje vrijednim.
Nadalje, alati za prevođenje uspostavljeni projektom mogu biti korisni pružateljima podataka koji žele prevesti metapodatke svojih zbirki na engleski jezik, čime se poboljšava dostupnost njihovih zbirki. Korisnici platforme za agregiranje MINT-a mogu se izravno koristiti postojećim povezivanjem API-ja s motorima, dok institucije kulturne baštine s tehničkim stručnim znanjem mogu iskoristiti lako upotrebljive motore za strojno prevođenje koji su javno dostupni u repozitoriju ELG-a. Svi stručnjaci za kulturnu baštinu koji su sudjelovali u anketi izjavili su da će razmotriti upotrebu alata Europeana Translate za obogaćivanje zbirki svoje organizacije automatskim prijevodima kako bi se poboljšala vidljivost.
Europeana Translate Event - kako strojno prevođenje & višejezični pristup utječe na kulturnu baštinu
Želite li saznati više o projektu Europeana Translate, njegovoj metodologiji i rezultatima? Želite li i produbiti svoje znanje o najsuvremenijim tehnologijama strojnog prevođenja i o tome kako se one mogu primijeniti u sektoru kulturne baštine?
Zatim nam se pridružite na Europeana Translate Eventu - How machine translation & višejezični pristup utječe na kulturnu baštinu. Ovo je internetsko događanje koje će se održati 13. travnja 2023. od 14:00 do 17:00 sati po srednjoeuropskom vremenu. Saslušat ćete projektne partnere kako detaljno objašnjavaju metodologiju i rezultate dobivene u ove dvije godine rada. Raspravljat će se i o sličnim projektima, uvijek kritički uzimajući u obzir važnost automatiziranih prijevoda podataka/metapodataka o kulturnoj baštini s promišljanjima o budućim koracima, upotrebljivosti i izazovima tehnologije umjetne inteligencije za sektor kulturne baštine.
