Europeana Prevedi
Cilj telekomunikacijskega projekta Europeana Translate v okviru IPE eTranslation je okrepiti povezave med infrastrukturo eTranslation in skupnim evropskim podatkovnim prostorom za kulturno dediščino, ki ga uvaja pobuda Europeana, v korist obeh. Po eni strani je cilj projekta izboljšati uporabnost virov kulturne dediščine z obogatitvijo naborov podatkov o kulturni dediščini z večjezičnimi metapodatki. Po drugi strani pa izboljšuje jezikovne vire, ki so javno dostopni prek usklajevanja evropskih jezikovnih virov, z metapodatki iz milijonov predmetov kulturne dediščine, ki so bili skrbno izbrani, očiščeni in normalizirani, tako da so postali primerni za namene usposabljanja.
V ta namen je Europeana Translate razvila in uvedla orodja za strojno prevajanje, prilagojena potrebam sektorja kulturne dediščine. Orodja se uporabljajo za prevajanje metapodatkov več kot 25 milijonov zapisov, ki so trenutno na voljo prek infrastrukture Europeane, iz 22 uradnih jezikov EU v angleščino, s čimer se izboljšuje večjezična izkušnja, ki je na voljo uporabnikom.
Med projektom so partnerji usposobili nabor prevajalskih orodij, ki jih je zagotovil partner Pangeanic, z izborom metapodatkov, izbranih iz infrastrukture Europeane, vključno z dvojezičnimi in enojezičnimi podatki ter večjezičnimi besednjaki. Dodatni podatki, izbrani s spletišča za zbiranje podatkov OPUS, so bili upoštevani tudi za jezike, ki niso bili dovolj zastopani. Izvedenih je bilo več poskusov za določitev najboljše kombinacije učnih podatkov in nastavitev motorjev za vsak jezik. Z razdelitvijo podatkov med nabore usposabljanj in preizkusov je bilo za vse jezikovne dvojice izvedeno samodejno ocenjevanje na podlagi standardnih metrik (kot sta BLEU in TER). Rezultati kažejo znatno izboljšanje v primerjavi z generičnimi pangeanskimi modeli (pred usposabljanjem v domeni) in eTranslation DSI za večino jezikov.
Ocena samodejnega prevajanja s strani človeških strokovnjakov
Samodejne prevode so obširno ocenili tudi jezikoslovci in strokovnjaki za kulturno dediščino. Ocenjevalci so bili pozvani, naj ocenijo samodejne prevode v angleščino na lestvici od 0 do 100, pri čemer naj upoštevajo vidike, kot so tekočnost (splošna pravilnost), točnost (splošni pomen) in ustreznost (pravilna uporaba terminologije). Pozvane so bile tudi, naj predložijo dodatne povratne informacije, vključno s poročanjem o pomembnih in ponavljajočih se napakah. Prek platforme CrowdHeritage so bile organizirane tri kampanje množičnega financiranja, da bi pritegnili člane sektorja kulturne dediščine. Na splošno se jih je udeležilo 44 strokovnih jezikoslovcev in 29 strokovnjakov s področja kulturne dediščine, ki so ocenili precej visoko (nad 80 %) za večino od 22 jezikov.
Rezultati, pridobljeni s človeškim vrednotenjem, so nam omogočili vpogled v vedenje strojnih prevajalnikov za različne jezike. Poglobljena statistična analiza dodeljenih ocen ljudi v povezavi s samodejnimi ocenami zaupanja, ki so jih izračunali stroji za strojno prevajanje, nam je omogočila določitev ustreznih pragov kakovosti za objavo prevodov iz različnih jezikov v infrastrukturo Europeane.
Koristi za uporabnike in ustanove za varstvo kulturne dediščine
Infrastruktura Europeane uporablja prevajalske stroje za pripravo, indeksiranje, izmenjavo in prikaz samodejnih angleških prevodov metapodatkov, kar bo ljudem omogočilo boljše odkrivanje, analiziranje in ponovno uporabo gradiva.
Pozitivni učinek tega dela je potrdila anketa o oceni učinka, ki jo je izpolnilo 27 jezikoslovcev in 18 strokovnjakov za kulturno dediščino. Na vprašanje o dodani vrednosti, ki jo lahko samodejni angleški prevodi prinesejo iskanju in prikazu predmetov kulturne dediščine na spletišču Europeane, sta obe skupnosti menili, da je to pomembno. Poročali so tudi, da cenijo pričakovano povečano število rezultatov iskanja, ki bi vključevali predmete kulturne dediščine, ki se trenutno pri iskanju v angleščini ne vračajo: 83,4 % strokovnjakov za kulturno dediščino in 62,9 % jezikoslovcev je menilo, da je to izboljšanje dragoceno.
Poleg tega so lahko prevajalski mehanizmi, vzpostavljeni v okviru projekta, koristni za ponudnike podatkov, ki želijo metapodatke svojih zbirk prevesti v angleščino, s čimer se izboljša dostopnost njihovih zbirk. Uporabniki platforme za združevanje MINT lahko neposredno uporabljajo obstoječe povezovanje vmesnikov za aplikacijsko programiranje z motorji, ustanove za varstvo kulturne dediščine s tehničnim strokovnim znanjem pa lahko izkoristijo motorje za strojno prevajanje, ki jih je mogoče takoj uporabiti in so javno dostopni v repozitoriju ELG. Vsi strokovnjaki za kulturno dediščino, ki so sodelovali v raziskavi, so izjavili, da bodo razmislili o uporabi orodij Europeana Translate za obogatitev zbirk svoje organizacije s samodejnimi prevodi za izboljšanje odkrivnosti.
Europeana Translate Event - kako strojno prevajanje & večjezični dostop vpliva na kulturno dediščino
Vas zanima več o projektu Europeana Translate, njegovi metodologiji in rezultatih? Želite tudi poglobiti svoje znanje o najsodobnejših tehnologijah strojnega prevajanja in o tem, kako jih je mogoče uporabiti v sektorju kulturne dediščine?
Pridružite se nam na dogodku Europeana Translate Event - How machine translation & multilingual access impacts cultural heritage (Kako strojno prevajanje & večjezični dostop vpliva na kulturno dediščino). To je spletni dogodek, ki bo potekal 13. aprila 2023 od 14.00 do 17.00 po srednjeevropskem času. Prisluhnili boste projektnim partnerjem, ki bodo podrobno pojasnili metodologijo in rezultate, dosežene v teh dveh letih dela. Razpravljali se bodo tudi o podobnih projektih, pri čemer se bo vedno kritično upošteval pomen avtomatiziranega prevajanja podatkov/metapodatkov o kulturni dediščini z razmislekom o prihodnjih korakih, uporabnosti in izzivih tehnologije umetne inteligence za sektor kulturne dediščine.
