Europeana versti
EITP telekomunikacijų programos „eTranslation“ projektu „Europeana Translate“ siekiama stiprinti „eTranslation“ infrastruktūros ir bendros Europos kultūros paveldo duomenų erdvės, įdiegtos pagal iniciatyvą „Europeana“, sąsajas, kad jos būtų naudingos abiem šalims. Viena vertus, projektu siekiama pagerinti kultūros paveldo išteklių naudojimą praturtinant kultūros paveldo duomenų rinkinius daugiakalbiais metaduomenimis. Kita vertus, juo didinami kalbos ištekliai, kurie atvirai prieinami per Europos kalbų išteklių koordinavimą, naudojant milijonų kultūros paveldo objektų, kurie buvo kruopščiai atrinkti, išvalyti ir normalizuoti, kad juos būtų galima pritaikyti mokymo tikslais, metaduomenis.
Šiais tikslais „Europeana Translate“ sukūrė ir įdiegė prie kultūros paveldo sektoriaus poreikių pritaikytas mašininio vertimo priemones. Priemonės taikomos siekiant iš 22 oficialiųjų ES kalbų į anglų kalbą išversti daugiau kaip 25 mln. įrašų metaduomenis, kuriuos šiuo metu galima gauti naudojantis „Europeanos“ infrastruktūra, taip pagerinant naudotojams teikiamą daugiakalbystės patirtį.
Projekto metu partneriai apmokė partnerių Pangeanic teikiamų vertimo sistemų rinkinį su atrinktais metaduomenimis, atrinktais iš Europeanos infrastruktūros, įskaitant dvikalbius ir vienakalbius duomenis, taip pat daugiakalbius žodynus. Taip pat buvo atsižvelgta į papildomus duomenis, atrinktus iš OPUS duomenų rinkimo svetainės, apie kalbas, kurioms nebuvo pateikta pakankamai informacijos. Atlikta nemažai eksperimentų, siekiant nuspręsti, koks mokymo duomenų ir kiekvienos kalbos variklių sąrankos derinys būtų geriausias. Padalijus duomenis į mokymo ir testų rinkinius, buvo atliktas automatinis visų kalbų porų vertinimas, grindžiamas standartiniais parametrais (pvz., BLEU ir TER). Rezultatai rodo, kad padėtis gerokai pagerėjo, palyginti su bendraisiais pangeaniniais modeliais (prieš mokymą srityje) ir daugumos kalbų „eTranslation“ DSI.
Žmogiškųjų ekspertų atliekamas automatinio vertimo vertinimas
Be to, lingvistai ir kultūros paveldo ekspertai atliko išsamų automatinių vertimų vertinimą. Vertintojų buvo paprašyta įvertinti automatinius vertimus į anglų kalbą skalėje nuo 0 iki 100, atsižvelgiant į tokius aspektus kaip sklandumas (gramatinis teisingumas), tikslumas (bendroji reikšmė) ir tinkamumas (tinkamas terminijos vartojimas). Jų taip pat buvo paprašyta pateikti papildomos grįžtamosios informacijos, be kita ko, pranešti apie svarbias ir pasikartojančias klaidas. Per platformą „CrowdHeritage“ buvo surengtos trys visuomenės patalkos kampanijos, siekiant įtraukti kultūros paveldo sektoriaus narius. Iš viso juose dalyvavo 44 lingvistai ekspertai ir 29 kultūros paveldo specialistai, kurie daugumą iš 22 kalbų įvertino gana aukštai (daugiau kaip 80 proc.).
Žmogaus vertinimo rezultatai suteikė mums įžvalgų apie skirtingų kalbų mašininio vertimo sistemų elgseną. Išsami statistinė žmonėms priskirtų reitingų analizė kartu su automatinio vertimo sistemų apskaičiuotais automatiniais patikimumo balais leido mums nustatyti tinkamas kokybės ribas vertimams iš įvairių kalbų į Europeanos infrastruktūrą skelbti.
Nauda naudotojams ir kultūros paveldo įstaigoms
„Europeanos“ infrastruktūra naudoja vertimo sistemas automatiniams metaduomenų vertimams į anglų kalbą rengti, indeksuoti, jais dalytis ir juos rodyti, kad žmonės galėtų geriau atrasti, analizuoti ir pakartotinai naudoti medžiagą.
Teigiamas šio darbo poveikis patvirtintas poveikio vertinimo tyrimu, kurį atliko 27 lingvistai ir 18 kultūros paveldo ekspertų. Paklaustos apie pridėtinę vertę, kurią automatiniai vertimai į anglų kalbą gali suteikti kultūros paveldo objektų paieškai ir rodymui Europeanos interneto svetainėje, abi bendruomenės manė, kad tai svarbu. Jie taip pat pranešė, kad palankiai vertina numatomą didesnį paieškos rezultatų, kurie apimtų kultūros paveldo objektus, kurie šiuo metu negrąžinami atliekant paiešką anglų kalba, skaičių: 83,4 proc. kultūros paveldo ekspertų ir 62,9 proc. lingvistų manė, kad šis pagerėjimas yra vertingas.
Be to, pagal projektą sukurtos vertimo sistemos gali būti naudingos duomenų teikėjams, norintiems išversti savo rinkinių metaduomenis į anglų kalbą, taip pagerinant jų rinkinių prieinamumą. MINT agregavimo platformos naudotojai gali tiesiogiai naudotis esamomis API sąsajomis su varikliais, o kultūros paveldo įstaigos, turinčios techninių žinių, gali pasinaudoti lengvai diegiamais mašininio vertimo varikliais, atvirai prieinamais ELG saugykloje. Visi apklausoje dalyvavę kultūros paveldo ekspertai pareiškė, kad apsvarstys galimybę naudotis „Europeana Translate“ priemonėmis savo organizacijos kolekcijoms praturtinti automatiniu vertimu, kad būtų lengviau jas rasti.
„Europeana Translate Event“ – kaip mašininis vertimas ir daugiakalbė prieiga daro poveikį kultūros paveldui
Norite daugiau sužinoti apie projektą „Europeana Translate“, jo metodiką ir rezultatus? Ar taip pat norėtumėte pagilinti žinias apie naujausias mašininio vertimo technologijas ir kaip jos gali būti taikomos kultūros paveldo sektoriuje?
Tada prisijunkite prie mūsų Europeanos vertimo renginyje „Kaip mašininis vertimas ir amperai; daugiakalbė prieiga daro poveikį kultūros paveldui“. Tai internetinis renginys, vyksiantis 2023 m. balandžio 13 d. 14.00–17.00 val. Vidurio Europos vasaros laiku. Išgirsite, kaip projekto partneriai išsamiai paaiškina metodiką ir rezultatus, gautus per šiuos dvejus darbo metus. Taip pat bus aptariami panašūs projektai, visada kritiškai atsižvelgiant į automatinio kultūros paveldo duomenų ir (arba) metaduomenų vertimo svarbą, apsvarstant būsimus dirbtinio intelekto technologijų veiksmus, tinkamumą naudoti ir iššūkius kultūros paveldo sektoriui.
