Daudzvalodu metadatu problēma
Europeana strādā ar kolekcijām, kas aprakstītas ne mazāk kā 37 valodās, un cenšas tās saskaņot ar meklējamiem terminiem, kas var būt jebkurā valodā. Visi Europeana tīmekļa vietnes kolekciju vienumi ir aprakstīti metadatu lauku kopumā, kas sniedz būtisku informāciju par tiem, piemēram, to nosaukumu un radītāju. Šī informācija palīdz cilvēkiem atklāt un saprast interesējošos objektus. Pašlaik lielākā daļa ierakstu satur terminus vienā valodā, proti, datu sniedzēju valodā. Šis daudzvalodu metadatu trūkums kavē Europeana mērķi piedāvāt plašu piekļuvi to vākšanai dažādās valodās.
Daudzvalodības jautājuma risināšana šajā ziņā ir diezgan sarežģīts uzdevums. Vispirms metadati nav dabiska valoda ar pilnīgiem teikumiem un paredzamu gramatiku; tas bieži tiek pasniegts īsās frāzēs vai pat atsevišķos vārdos, kas nozīmē, ka ir grūti atrast kontekstu, kas nepieciešams precīzam tulkojumam. Turklāt izmantotie termini var būt ļoti specifiski; tie var izskatīties kā vispārīgs termins, bet tiem ir atšķirīga nozīme, ja tos lieto kultūras mantojuma kontekstā.
Piemēram, grieķu reliģiskais termins, kas atspoguļo pēdējo vakariņu, varētu tikt nepareizi tulkots kā slepenās vakariņas. Šī neprecīzā tulkojuma ietekme vai tulkojuma neesamība angļu valodā būtu tāda, ka grieķu artefakti ar nosaukumu vai aprakstu, kas attiecas uz konkrēto tēmu, neparādītos rezultātos, kad kāds Europeana tīmekļa vietnē meklē gleznas par pēdējo vakariņu.
Tilta veidošana starp Europeana un eTranslation digitālo pakalpojumu kopienām
Kā Europeana Translate projekts sadarbojas ar citām ieinteresētajām personām un izmanto instrumentus, lai risinātu šo problēmu?
Eiropas Komisijas izstrādātais “eTranslation” ir valodu rīks, kas izveidots, izmantojot jaunākās MI tehnoloģijas, un ir apmācīts par lielo pieejamo datu apjomu gan iekšēji, gan apkopots, izmantojot ES mēroga valodu resursu vākšanas centienus. ELRC-SHARE repozitorijā, ko izmanto eTranslation DSI, kultūras mantojums ir nepietiekami pārstāvēts, un tā rezultātā esošie tehnoloģiskie risinājumi ir mazāk piemēroti, lai apstrādātu kultūras mantojuma datu īpašos aspektus.
Šajā kontekstā sadarbības veidošana starp ieinteresētajām personām no Europeana un eTranslation kopienām ir būtiska, lai pielāgotu mašīntulkošanas rīkus tā, lai tie varētu apmierināt kultūras mantojuma jomas īpašās vajadzības. Europeana Translate mērķis ir apvienot eTranslation un Europeana kopienas, lai risinātu problēmas, ar kurām saskaras abas nozares. Lai uzlabotu daudzvalodu piekļuvi digitālajam kultūras mantojumam, ir vajadzīgi vairāki savstarpēji papildinoši uzdevumi un zināšanas, ko pilda dažādi Europeana Translate partneri (skatīttos šeit).
Eksperimenti ar mašīntulkošanu
Pēdējo mēnešu laikā projekta partneri ir sadarbojušies, lai atlasītu un pienācīgi segmentētu un iztīrītu metadatu ierakstus no Europeana tīmekļa vietnes. Pēc tam šos datus izmantoja projekta partneris Pangeanic, kurš tos izmantoja papildus 12 miljoniem teksta tulkošanas segmentu no esošajiem vispārīgajiem valodas resursiem, lai uzlabotu mašīntulkošanas algoritmu precizitāti, tulkojot kultūras mantojuma metadatus.
Pangeanic veica vairākus eksperimentus, ņemot vērā dažādas apmācības datu kombinācijas. Tas ietvēra divvalodu metadatus no Europeana, sintētiskus datus, kas iegūti no metadatiem vienā valodā, un daudzvalodu vārdnīcas, kas attiecas uz kultūras mantojuma jomu. Tika apsvērti arī alternatīvi datu avoti, ne tikai Europeana, attiecībā uz valodām, kurām ir maz resursu ar tulkojumiem angļu valodā vai tādu nav vispār. Šo eksperimentu automātiska novērtēšana, izmantojot noteiktus rādītājus, ļāva partneriem lemt par vislabākās kvalitātes automātisko tulkojumu iestatīšanu un salīdzināt tos ar rezultātiem, kas sasniegti ar citiem tulkošanas rīkiem, piemēram, Google Translate un eTranslate. Kopumā novērtējums liecina par uzlabojumiem rezultātos salīdzinājumā ar vairuma valodu vispārējiem modeļiem.
Šā procesa rezultātā izveidotās mašīntulkošanas programmas tiks izmantotas, lai tulkotu metadatus no 23 oficiālajām ES valodām uz angļu valodu (24. oficiālo valodu). Šīs tulkošanas programmas tiks izmantotas, lai izveidotu automātiskus tulkojumus angļu valodā vismaz 25 miljoniem metadatu ierakstu platformā Europeana. Tulkojumi tiks indeksēti un parādīti, uzlabojot daudzvalodu lietotāju pieredzi Europeana platformā. Atgriežoties pie personas, kas meklē artefaktus, iedvesmojoties no "Pēdējā vakariņa" reliģiskās tēmas, pēc Europeana Translate pabeigšanas viņi varēs piekļūt arī gleznām no Grieķijas, Rumānijas un daudzām citām valstīm, kas pašlaik nav iekļautas meklēšanas rezultātos.
Turklāt Europeana Translate saskaņā ar bezmaksas atkalizmantošanas licenci (CC0) darīs atklāti pieejamus atlasītos un pienācīgi apstrādātos valodu resursus, ko tas sagatavojis, izmantojot ELRC-SHARE repozitoriju. Tas ļaus mašīntulkošanas kopienai izmantot atvērtos datus, lai apmācītu, pielāgotu un pārbaudītu savus tulkošanas pakalpojumus kultūras mantojuma jomā.
Cilvēku iesaistīšana cilpā
Turpmākajos mēnešos lingvisti un kultūras mantojuma speciālisti veiks divus papildu novērtējumus par eksperimentos sagatavotajiem automātiskajiem tulkojumiem.
Mašīntulkošanas novērtēšanas rīks tiks izmantots, lai novērtētu visu 23 tulkošanas programmu precizitāti un veiktspēju. Tiks organizētas trīs pūļa pakalpojumu kampaņas, lai iesaistītu kultūras mantojuma speciālistus, kas palīdzētu pārbaudīt un novērtēt automātisko tulkošanu (šajā saistībā novērtējamās valodas ir franču, itāļu un nīderlandiešu valoda). Kampaņas arī iesaistīs auditoriju un vairos kultūras mantojuma kopienas informētību par automātiskās tulkošanas pakalpojumu spēku. Platforma CrowdHeritage tiks izmantota, lai piedāvātu automātiskos tulkojumus saistībā ar kultūras mantojuma priekšmetiem, uz kuriem tie attiecas.
Šo novērtējumu rezultāti sniegs noderīgu ieskatu un tiks izmantoti, lai noteiktu pieņemamu kvalitātes slieksni automātisko tulkojumu publicēšanai Europeana un izmantošanai kultūras mantojuma organizāciju platformās.
Uzziniet vairāk un iesaistieties!
Lai uzzinātu vairāk, varat noskatīties ievadvideo, video par projekta pirmajiem rezultātiem vai lasīt par Europeana Translate arhitektūru šajā dokumentā, kas iesniegts Eiropas Mašīntulkošanas asociācijā 2022. gadā. Audiovizuālās jomas, modes un muzeju profesionāļiem būs iespēja sniegt ieguldījumu projektā, palīdzot novērtēt rezultātus mūsu nišas piegādes kampaņās, kas notiks 2023. gada sākumā. Lai uzzinātu vairāk, sekojiet līdzi Europeana Pro pasākuma lapai.
