Europeana tulkot
Projekta “eTranslation CEF Telecom Translate” mērķis ir stiprināt savienojumus starp “eTranslation” infrastruktūru un kopīgo Eiropas kultūras mantojuma datu telpu, ko īsteno ar iniciatīvu “Europeana”, lai ieguvēji būtu abi. No vienas puses, projekta mērķis ir uzlabot kultūras mantojuma resursu izmantojamību, bagātinot kultūras mantojuma datu kopas ar daudzvalodu metadatiem. No otras puses, tas uzlabo valodu resursus, kas atklāti pieejami, izmantojot Eiropas valodu resursu koordināciju, ar metadatiem no miljoniem kultūras mantojuma objektu, kuri tika rūpīgi atlasīti, attīrīti un normalizēti, lai tos varētu izmantot mācību nolūkos.
Šajā nolūkā Europeana Translate ir izstrādājusi un ieviesusi mašīntulkošanas rīkus, kas pielāgoti kultūras mantojuma nozares vajadzībām. Rīki tiek izmantoti, lai tulkotu vairāk nekā 25 miljonu ierakstu metadatus, kas pašlaik ir pieejami Europeana infrastruktūrā, no 22 oficiālajām ES valodām uz angļu valodu, tādējādi uzlabojot lietotājiem sniegto daudzvalodu pieredzi.
Projekta gaitā partneri apmācīja partnera Pangeanic nodrošināto tulkošanas programmu kopumu ar metadatu izlasi, kas atlasīta no Europeana infrastruktūras, tostarp divvalodu un vienvalodu datiem, kā arī daudzvalodu vārdnīcām. Tika ņemti vērā arī papildu dati, kas atlasīti no OPUS vākšanas tīmekļa vietnes, par valodām, kuras nebija pietiekami pārstāvētas. Tika veikti vairāki eksperimenti, lai izlemtu par labāko apmācības datu kombināciju un dzinēju uzstādīšanu katrai valodai. Sadalot datus starp mācību un testu kopām, visiem valodu pāriem tika veikta automātiska izvērtēšana, pamatojoties uz standarta rādītājiem (piemēram, BLEU un TER). Rezultāti liecina par ievērojamiem uzlabojumiem salīdzinājumā ar vispārīgajiem Pangeanic modeļiem (pirms apmācības domēnā) un eTranslation DSI lielākajai daļai valodu.
Cilvēkresursu ekspertu veikts automātiskās tulkošanas novērtējums
Valodu speciālisti un kultūras mantojuma eksperti plaši novērtēja arī automātiskos tulkojumus. Vērtētāji tika aicināti novērtēt automātiskos tulkojumus angļu valodā skalā no 0 līdz 100, ņemot vērā tādus aspektus kā plūstamība (gramatiskā pareizība), precizitāte (vispārējā nozīme) un piemērotība (pareiza terminoloģijas izmantošana). Viņiem tika arī lūgts sniegt papildu atsauksmes, tostarp ziņot par svarīgām un atkārtotām kļūdām. Izmantojot platformu CrowdHeritage, tika organizētas trīs pūļa pakalpojumu kampaņas, lai iesaistītu kultūras mantojuma nozares dalībniekus. Kopumā tajās piedalījās 44 eksperti lingvisti un 29 kultūras mantojuma speciālisti, kuri sniedza diezgan augstu vērtējumu (vairāk nekā 80 %) par lielāko daļu no 22 valodām.
Cilvēka veiktā novērtējuma rezultāti mums sniedza ieskatu par mašīntulkošanas programmu darbību dažādās valodās. Padziļināta cilvēku piešķirto vērtējumu statistiskā analīze saistībā ar automātiskajiem ticamības rādītājiem, ko aprēķināja mašīntulkošanas programmas, ļāva mums noteikt atbilstošas kvalitātes robežvērtības tulkojumu publicēšanai no dažādām valodām Europeana infrastruktūrā.
Ieguvumi lietotājiem un kultūras mantojuma iestādēm
Tulkošanas programmas izmanto Europeana infrastruktūra, lai sagatavotu, indeksētu, kopīgotu un parādītu automātiskus metadatu tulkojumus angļu valodā, kas ļaus cilvēkiem labāk atklāt, analizēt un atkārtoti izmantot materiālus.
Šā darba pozitīvo ietekmi apstiprināja ietekmes novērtējuma apsekojums, ko veica 27 lingvisti un 18 kultūras mantojuma eksperti. Atbildot uz jautājumu par pievienoto vērtību, ko automātiski tulkojumi angļu valodā var sniegt kultūras mantojuma priekšmetu meklēšanai un attēlošanai Europeana tīmekļa vietnē, abas kopienas uzskatīja, ka tas ir svarīgi. Viņi arī ziņoja, ka atzinīgi vērtē gaidāmo meklēšanas rezultātu skaita pieaugumu, kas ietvertu kultūras mantojuma priekšmetus, kuri pašlaik netiek atgriezti, meklējot angļu valodā: 83,4 % un 62,9 % kultūras mantojuma ekspertu un lingvistu uzskatīja, ka šis uzlabojums ir vērtīgs.
Turklāt projektā izveidotās tulkošanas programmas var būt noderīgas datu sniedzējiem, kuri vēlas tulkot savu kolekciju metadatus angļu valodā, uzlabojot savu kolekciju pieejamību. MINT apkopošanas platformas lietotāji var tieši izmantot esošo API sasaisti ar dzinējiem, savukārt kultūras mantojuma iestādes ar tehniskām zināšanām var izmantot viegli izvietojamās mašīntulkošanas dzinējus, kas ir atklāti pieejami ELG repozitorijā. Visi kultūras mantojuma eksperti, kas piedalījās aptaujā, paziņoja, ka apsvērs iespēju izmantot Europeana Translate rīkus, lai bagātinātu savas organizācijas kolekcijas ar automātiskiem tulkojumiem, lai uzlabotu atklājamību.
Europeana Translate Event - kā mašīntulkošana & daudzvalodu piekļuve ietekmē kultūras mantojumu
Vai vēlaties uzzināt vairāk par Europeana Translate projektu, tā metodoloģiju un rezultātiem? Vai vēlaties arī padziļināt savas zināšanas par jaunākajām mašīntulkošanas tehnoloģijām un to, kā tās var izmantot kultūras mantojuma nozarē?
Tad pievienojieties mums pasākumā Europeana Translate Event - How machine translation & daudzvalodu piekļuve ietekmē kultūras mantojumu. Šis tiešsaistes pasākums notiks 2023. gada 13. aprīlī no plkst. 14.00 līdz plkst. 17.00 pēc Centrāleiropas laika. Jūs uzklausīsiet projekta partnerus, kuri sīki izskaidros metodiku un rezultātus, kas iegūti šajos divos darba gados. Tiks apspriesti arī līdzīgi projekti, vienmēr kritiski apsverot kultūras mantojuma datu / metadatu automatizētas tulkošanas nozīmi ar pārdomām par MI tehnoloģiju turpmākajiem pasākumiem, izmantojamību un problēmām kultūras mantojuma nozarē.
