Výzva viacjazyčných metaúdajov
Europeana pracuje so zbierkami opísanými v najmenej 37 jazykoch a snaží sa ich zosúladiť s vyhľadávacími výrazmi, ktoré sa môžu vyskytnúť v akomkoľvek jazyku. Všetky položky v zbierkach na webovom sídle Europeany sú opísané v súbore polí metaúdajov, ktoré poskytujú základné informácie o nich, ako je ich názov a tvorca. Tieto informácie pomáhajú ľuďom objaviť a pochopiť objekty, ktoré ich zaujímajú. V súčasnosti väčšina záznamov obsahuje pojmy v jedinom jazyku, jazyku poskytovateľov údajov. Tento nedostatok viacjazyčných metaúdajov bráni cieľu Europeany ponúkať široký prístup k svojej zbierke vo všetkých jazykoch.
Riešenie viacjazyčnosti v tejto súvislosti je pomerne náročné. V prvom rade metaúdaje nie sú prirodzeným jazykom s úplnými vetami a predvídateľnou gramatikou; často sa uvádza v krátkych vetách alebo dokonca v jednotlivých slovách, čo znamená, že je ťažké nájsť kontext potrebný na presný preklad. Okrem toho môžu byť použité pojmy veľmi špecifické; môžu vyzerať ako všeobecný pojem, ale majú odlišný význam, ak sa používajú v kontexte kultúrneho dedičstva.
Napríklad grécky náboženský termín, ktorý odráža Poslednú večeru, by mohol byť nesprávne preložený ako Tajná večera. Dôsledkom tohto nepresného prekladu - alebo absencie prekladu do angličtiny - by bolo, že grécke artefakty s názvom alebo popisom odkazujúcim na konkrétnu tému by sa neobjavili medzi výsledkami, keď niekto hľadá obrazy o Poslednej večeri na webovej stránke Europeany.
Budovanie mosta medzi komunitami digitálnych služieb Europeana a eTranslation
Ako projekt Europeana Translate spolupracuje s inými zainteresovanými stranami a nástrojmi na riešenie tejto výzvy?
Systém eTranslation, ktorý vyvinula Európska komisia, je jazykový nástroj vytvorený s použitím najnovších technológií umelej inteligencie a bol vyškolený o veľkom množstve údajov dostupných interne aj zhromaždených prostredníctvom úsilia o zber jazykových zdrojov v celej EÚ. V archíve ELRC-SHARE, ktorý používa DSI eTranslation, je kultúrne dedičstvo nedostatočne zastúpené, v dôsledku čoho sú existujúce technologické riešenia menej dobre vybavené na spracovanie osobitných aspektov údajov o kultúrnom dedičstve.
V tejto súvislosti je budovanie spolupráce medzi zainteresovanými stranami z komunít Europeana a eTranslation kľúčom k prispôsobeniu nástrojov strojového prekladu tak, aby mohli slúžiť osobitným potrebám oblasti kultúrneho dedičstva. Europeana Translate sa snaží spojiť eTranslation a komunity Europeany s cieľom riešiť výzvy, s ktorými sa stretávajú oba sektory. Zlepšenie viacjazyčného prístupu k digitálnemu kultúrnemu dedičstvu si vyžaduje niekoľko doplnkových úloh a odborných znalostí, ktorým slúžia rôzni partneri Europeany Translate (pozriich tu).
Experimenty so strojovým prekladom
V posledných mesiacoch partneri projektu spolupracovali na výbere a primeranom segmentovaní a vyčistení záznamov metaúdajov z webového sídla Europeany. Tieto údaje potom využil partner projektu Pangeanic, ktorý ich použil na doplnenie 12 miliónov prekladových textových segmentov z existujúcich všeobecných jazykových zdrojov na zlepšenie presnosti algoritmov strojového prekladu pri preklade metaúdajov o kultúrnom dedičstve.
Pangeanic vykonal niekoľko experimentov s ohľadom na rôzne kombinácie tréningových údajov. Zahŕňali dvojjazyčné metaúdaje z Europeany, syntetické údaje vytvorené z metaúdajov v jednom jazyku a viacjazyčné slovníky relevantné pre oblasť kultúrneho dedičstva. Okrem Europeany sa zvažovali aj alternatívne zdroje údajov pre jazyky, pre ktoré existuje len málo zdrojov s prekladmi do angličtiny alebo žiadne zdroje s prekladmi do angličtiny. Automatické vyhodnotenie týchto experimentov pomocou zavedených metrík umožnilo partnerom rozhodnúť o nastavení najkvalitnejších automatických prekladov a porovnať ich s výsledkami dosiahnutými inými prekladateľskými nástrojmi, ako sú Google Translate a eTranslate. Hodnotenie vo všeobecnosti preukazuje zlepšenie výsledkov v porovnaní so všeobecnými modelmi pre väčšinu jazykov.
Strojové preklady, ktoré sú výsledkom tohto procesu, sa použijú na preklad metaúdajov z 23 úradných jazykov EÚ do angličtiny (24. úradný jazyk). Tieto prekladateľské nástroje sa použijú na generovanie automatických anglických prekladov pre najmenej 25 miliónov záznamov metaúdajov na platforme Europeana. Preklady sa budú indexovať a zobrazovať, čím sa zlepší viacjazyčná používateľská skúsenosť na platforme Europeana. Keď sa po dokončení prekladu Europeany vrátia k osobe, ktorá hľadá artefakty inšpirované náboženskou témou "Posledná večera", budú mať prístup aj k maľbám z Grécka, Rumunska a mnohých ďalších krajín, ktoré v súčasnosti nie sú zahrnuté vo výsledkoch vyhľadávania.
Okrem toho Europeana Translate otvorene sprístupní vybrané a primerane spracované jazykové zdroje, ktoré vytvorila prostredníctvom archívu ELRC-SHARE, na základe bezplatnej licencie na opakované použitie (CC0). Komunita strojového prekladu tak bude môcť využívať otvorené údaje na trénovanie, prispôsobovanie a testovanie svojich prekladateľských služieb v oblasti kultúrneho dedičstva.
Zapojenie ľudí do slučky
V nadchádzajúcich mesiacoch vykonajú lingvisti a odborníci v oblasti kultúrneho dedičstva dve doplňujúce hodnotenia automatických prekladov vytvorených v rámci experimentov.
Nástroj na hodnotenie strojového prekladu sa použije na vyhodnotenie presnosti a výkonnosti všetkých 23 prekladateľských nástrojov. Zorganizujú sa tri crowdsourcingové kampane na zapojenie odborníkov v oblasti kultúrneho dedičstva s cieľom pomôcť pri testovaní a hodnotení automatického prekladu (jazyky, ktoré sa majú v tejto súvislosti hodnotiť, zahŕňajú francúzštinu, taliančinu a holandčinu). Kampane zapoja aj publikum a zvýšia informovanosť komunity kultúrneho dedičstva o sile automatických prekladateľských služieb. Platforma CrowdHeritage sa bude používať na prezentáciu automatických prekladov v kontexte položiek kultúrneho dedičstva, na ktoré sa vzťahujú.
Výsledky týchto hodnotení poskytnú užitočné poznatky a použijú sa na určenie prijateľnej prahovej hodnoty kvality pre uverejňovanie automatických prekladov do Europeany a na použitie na vlastných platformách organizácií kultúrneho dedičstva.
Zistite viac a zapojte sa
Ak sa chcete dozvedieť viac, môžete si pozrieť úvodné video, video o prvých výsledkoch projektu alebo si prečítať o architektúre Europeana Translate v tomto dokumente predloženom v Európskom združení pre strojový preklad 2022. Odborníci v audiovizuálnej oblasti, móde a múzeách budú mať možnosť prispieť k projektu tým, že pomôžu vyhodnotiť výsledky našich kampaní zameraných na získavanie špecializovaných zdrojov, ktoré sa uskutočnia začiatkom roka 2023. Ak sa chcete dozvedieť viac, sledujte stránku podujatia Europeana Pro.
