Daugiakalbių metaduomenų problema
Europeana dirba su kolekcijomis, aprašytomis ne mažiau kaip 37 kalbomis, ir siekia jas suderinti su paieškos terminais, kurie gali būti pateikiami bet kuria kalba. Visi Europeanos svetainėje esančių kolekcijų elementai aprašyti metaduomenų laukuose, kuriuose pateikiama esminė informacija apie juos, pvz., jų pavadinimas ir kūrėjas. Ši informacija padeda žmonėms atrasti ir suprasti juos dominančius objektus. Šiuo metu daugumoje įrašų terminai pateikiami viena kalba – duomenų teikėjų kalba. Šis daugiakalbių metaduomenų trūkumas trukdo siekti EUROPEANA tikslo suteikti plačią prieigą prie jos duomenų įvairiomis kalbomis.
Daugiakalbystės klausimo sprendimas šiuo atžvilgiu yra gana sudėtingas uždavinys. Pirmiausia, metaduomenys nėra natūrali kalba su išsamiais sakiniais ir nuspėjama gramatika; jis dažnai pateikiamas trumpomis frazėmis ar net pavieniais žodžiais, o tai reiškia, kad sunku rasti tiksliam vertimui reikalingą kontekstą. Be to, vartojami terminai gali būti labai konkretūs; jie gali atrodyti kaip bendras terminas, tačiau turi kitokią reikšmę, kai vartojami kultūros paveldo kontekste.
Pavyzdžiui, graikų religinis terminas, atspindintis Paskutinę vakarienę, gali būti neteisingai išverstas kaip Slapta vakarienė. Šio netikslaus vertimo poveikis - arba apskritai vertimo į anglų kalbą nebuvimas - būtų toks, kad graikų artefaktai su pavadinimu ar aprašymu, nurodančiu konkrečią temą, nebūtų rodomi tarp rezultatų, kai kas nors ieško paveikslų apie "Paskutinę vakarienę" "Europeanos" svetainėje.
Tilto tarp „Europeanos“ ir „eTranslation“ skaitmeninių paslaugų bendruomenių kūrimas
Kaip įgyvendinant projektą „Europeana Translate“ bendradarbiaujama su kitais suinteresuotaisiais subjektais ir kokiomis priemonėmis siekiama spręsti šį uždavinį?
Europos Komisijos sukurta priemonė „eTranslation“ yra kalbos priemonė, sukurta naudojant naujausias DI technologijas ir apmokyta apie didelį duomenų kiekį, kurį galima gauti tiek pačioje institucijoje, tiek renkant ES masto kalbos išteklius. DSI „eTranslation“ naudojamoje ELRC-SHARE saugykloje nepakankamai atstovaujama kultūros paveldui, todėl esami technologiniai sprendimai yra mažiau pritaikyti konkretiems kultūros paveldo duomenų aspektams tvarkyti.
Atsižvelgiant į tai, labai svarbu plėtoti EUROPEANA ir „eTranslation“ bendruomenių suinteresuotųjų subjektų bendradarbiavimą siekiant pritaikyti mašininio vertimo priemones, kad jos atitiktų konkrečius kultūros paveldo srities poreikius. „Europeana Translate“ siekia suburti „eTranslation“ ir „Europeana“ bendruomenes, kad būtų sprendžiamos abiejuose sektoriuose kylančios problemos. Norint pagerinti daugiakalbę prieigą prie skaitmeninio kultūros paveldo, reikia atlikti keletą vienas kitą papildančių vaidmenų ir įgyti patirties, kuriuos atlieka įvairūs „Europeana Translate“ partneriai (žr.juos čia).
Eksperimentai su mašininiu vertimu
Per pastaruosius kelis mėnesius projekto partneriai dirbo kartu, kad atrinktų ir tinkamai suskirstytų ir ištrintų metaduomenų įrašus iš Europeanos svetainės. Tada šiuos duomenis panaudojo projekto partneris „Pangeanic“, kuris juos panaudojo 12 mln. vertimo tekstinių segmentų iš esamų bendrųjų kalbos išteklių, kad pagerintų mašininio vertimo algoritmų tikslumą verčiant kultūros paveldo metaduomenis.
Pangeanic atliko keletą eksperimentų, apsvarstydama skirtingus mokymo duomenų derinius. Tai apėmė dvikalbius „Europeanos“ metaduomenis, sintetinius duomenis, gautus iš metaduomenų viena kalba, ir daugiakalbius žodynus, susijusius su kultūros paveldo sritimi. Be Europeanos, taip pat buvo svarstomi alternatyvūs duomenų šaltiniai toms kalboms, kurių vertėjų į anglų kalbą yra nedaug arba jų visai nėra. Automatinis šių eksperimentų vertinimas naudojant nustatytą metriką leido partneriams nuspręsti dėl geriausios kokybės automatinių vertimų sąrankos ir palyginti juos su rezultatais, pasiektais naudojant kitas vertimo priemones, pvz., „Google Translate“ ir „eTranslate“. Apskritai iš vertinimo matyti, kad rezultatai pagerėjo, palyginti su bendriniais daugumos kalbų modeliais.
Šio proceso metu sukurtos mašininio vertimo sistemos bus naudojamos metaduomenims iš 23 oficialiųjų ES kalbų versti į anglų kalbą (24-ąją oficialiąją kalbą). Šios vertimo sistemos bus naudojamos automatiniam bent 25 mln. metaduomenų įrašų vertimui į anglų kalbą platformoje „Europeana“ generuoti. Vertimai bus indeksuojami ir rodomi, taip pagerinant daugiakalbių naudotojų patirtį platformoje „Europeana“. Peržiūrėję asmenį, kuris ieško artefaktų, įkvėptų religinės temos "Paskutinė vakarienė", užbaigę "Europeana Translate", jie taip pat galės susipažinti su paveikslais iš Graikijos, Rumunijos ir daugelio kitų šalių, kurie šiuo metu nėra įtraukti į paieškos rezultatus.
Be to, „Europeana Translate“ suteiks galimybę atvirai naudotis atrinktais ir tinkamai apdorotais kalbos ištekliais, kuriuos ji parengė ELRC-SHARE saugykloje pagal nemokamą pakartotinio naudojimo licenciją (CC0). Taip mašininio vertimo bendruomenė galės naudotis atviraisiais duomenimis, kad galėtų mokyti, pritaikyti ir išbandyti savo vertimo paslaugas kultūros paveldo srityje.
Žmonių įtraukimas į ciklą
Artimiausiais mėnesiais lingvistai ir kultūros paveldo specialistai atliks du papildomus eksperimentų metu atliktų automatinių vertimų vertinimus.
Mašininio vertimo vertinimo įrankis bus naudojamas visų 23 vertimo sistemų tikslumui ir našumui įvertinti. Bus surengtos trys visuomenės patalkos kampanijos, siekiant įtraukti kultūros paveldo specialistus, kad jie padėtų išbandyti ir įvertinti automatinį vertimą (šiuo atžvilgiu reikia įvertinti prancūzų, italų ir olandų kalbas). Kampanijose taip pat dalyvaus žiūrovai ir bus didinamas kultūros paveldo bendruomenės informuotumas apie automatinio vertimo paslaugų galią. Platforma „CrowdHeritage“ bus naudojama automatiniams vertimams pristatyti atsižvelgiant į kultūros paveldo objektus, su kuriais jie susiję.
Šių vertinimų rezultatai suteiks naudingų įžvalgų ir bus naudojami nustatant priimtiną automatinių vertimų į Europeaną skelbimo ir naudojimo pačių kultūros paveldo organizacijų platformose kokybės ribą.
Sužinokite daugiau ir dalyvaukite
Norėdami sužinoti daugiau, galite žiūrėti įvadinį vaizdo įrašą, vaizdo įrašą apie pirmuosius projekto rezultatus , arba skaityti apie „Europeana Translate“ architektūrą šiame dokumente, pristatytame 2022 m. Europos mašininio vertimo asociacijoje. Garso ir vaizdo, mados ir muziejų srities specialistai turės galimybę prisidėti prie projekto, padėdami įvertinti mūsų nišinių tiekimo kampanijų, kurios įvyks 2023 m. pradžioje, rezultatus. Daugiau informacijos rasite Europeana Pro renginio puslapyje.
