Výzva mnohojazyčných metadat
Europeana pracuje se sbírkami popsanými v nejméně 37 jazycích a snaží se je sladit s hledanými výrazy, které se mohou vyskytovat v jakémkoli jazyce. Všechny položky ve sbírkách na internetových stránkách Europeany jsou popsány v souboru polí metadat, která o nich poskytují základní informace, jako je jejich název a tvůrce. Tyto informace pomáhají lidem objevit a pochopit objekty, které je zajímají. V současné době většina záznamů obsahuje výrazy v jednom jazyce, tedy v jazyce poskytovatelů údajů. Tento nedostatek vícejazyčných metadat brání cíli Europeany nabídnout široký přístup ke své sbírce napříč jazyky.
Řešení mnohojazyčnosti v tomto ohledu je poměrně náročné úsilí. Za prvé, metadata nejsou přirozeným jazykem s úplnými větami a předvídatelnou gramatikou; je často prezentován v krátkých frázích nebo dokonce v jednotlivých slovech, což znamená, že kontext potřebný pro přesný překlad je obtížné najít. Kromě toho mohou být použité pojmy velmi specifické; mohou vypadat jako obecný pojem, ale při použití v kontextu kulturního dědictví mají jiný význam.
Například řecký náboženský termín odrážející poslední večeři by mohl být nesprávně přeložen jako tajná večeře. Důsledkem tohoto nepřesného překladu - nebo absence překladu do angličtiny - by bylo, že řecké artefakty s názvem nebo popisem odkazujícím na konkrétní téma by se neobjevily mezi výsledky, když někdo hledá obrazy o Poslední večeři na webových stránkách Europeany.
Budování mostu mezi komunitami digitálních služeb Europeana a eTranslation
Jak projekt Europeana Translate spolupracuje s dalšími zúčastněnými stranami a nástroji k řešení této výzvy?
eTranslation, který vyvinula Evropská komise, je jazykový nástroj vytvořený s využitím nejnovějších technologií umělé inteligence a byl vyškolen na velkém množství údajů, které jsou k dispozici jak interně, tak prostřednictvím shromažďování jazykových zdrojů v celé EU. V úložišti ELRC-SHARE, které používá DSI eTranslation, je kulturní dědictví nedostatečně zastoupeno, a v důsledku toho jsou stávající technologická řešení méně dobře vybavena pro zpracování specifických aspektů údajů o kulturním dědictví.
V této souvislosti je budování spolupráce mezi zúčastněnými stranami z komunity Europeany a komunity eTranslation klíčové pro přizpůsobení nástrojů strojového překladu tak, aby mohly sloužit konkrétním potřebám oblasti kulturního dědictví. Europeana Translate se snaží propojit eTranslation a komunity Europeany s cílem řešit problémy, s nimiž se potýkají obě odvětví. Zlepšení mnohojazyčného přístupu k digitálnímu kulturnímu dědictví vyžaduje řadu doplňkových úloh a odborných znalostí, kterým slouží různí partneři Europeany Translate (vizzde).
Experimenty se strojovým překladem
Během posledních několika měsíců partneři projektu spolupracovali na výběru a vhodném segmentování a čištění záznamů metadat z internetových stránek Europeany. Tato data pak využil partner projektu Pangeanic, který je použil nad rámec 12 milionů překladových textových segmentů ze stávajících zdrojů generických jazyků ke zlepšení přesnosti algoritmů strojového překladu při překladu metadat kulturního dědictví.
Pangeanic provedl řadu experimentů s ohledem na různé kombinace tréninkových dat. To zahrnovalo dvojjazyčná metadata z Europeany, syntetická data vytvořená z metadat v jednom jazyce a vícejazyčné slovníky týkající se oblasti kulturního dědictví. U jazyků, pro něž existuje jen málo zdrojů s překlady do angličtiny nebo žádné zdroje s překlady do angličtiny, byly zváženy i alternativní zdroje údajů nad rámec Europeany. Automatické vyhodnocení těchto experimentů pomocí zavedených metrik umožnilo partnerům rozhodnout o nastavení nejkvalitnějších automatických překladů a porovnat je s výsledky dosaženými jinými překladatelskými nástroji, jako je Google Translate a eTranslate. Obecně hodnocení ukazuje zlepšení výsledků ve srovnání s obecnými modely pro většinu jazyků.
Strojové překladače, které jsou výsledkem tohoto procesu, budou použity k překladu metadat z 23 úředních jazyků EU do angličtiny (24. úřední jazyk). Tyto překladače budou použity ke generování automatických překladů do angličtiny pro nejméně 25 milionů záznamů metadat na platformě Europeana. Překlady budou indexovány a zobrazeny, čímž se zlepší mnohojazyčný uživatelský zážitek na platformě Europeana. Při opětovné návštěvě osoby, která hledá artefakty inspirované náboženským tématem "Poslední večeře", budou mít po dokončení překladu Europeany přístup také k obrazům z Řecka, Rumunska a mnoha dalších zemí, které nejsou v současné době zahrnuty do výsledků vyhledávání.
Europeana Translate navíc otevřeně zpřístupní vybrané a vhodně zpracované jazykové zdroje, které vytvořila prostřednictvím úložiště ELRC-SHARE v rámci bezplatné licence pro opakované použití (CC0). To umožní komunitě strojového překladu využívat otevřená data k odborné přípravě, přizpůsobení a testování svých překladatelských služeb v oblasti kulturního dědictví.
Zapojení lidí do smyčky
V nadcházejících měsících provedou lingvisté a odborníci v oblasti kulturního dědictví dvě doplňková hodnocení automatických překladů vytvořených experimenty.
Nástroj pro hodnocení strojového překladu bude použit k vyhodnocení přesnosti a výkonu všech 23 překladačů. Budou uspořádány tři crowdsourcingové kampaně s cílem zapojit odborníky na kulturní dědictví, aby pomohli otestovat a vyhodnotit automatický překlad (jazyky, které mají být v tomto ohledu hodnoceny, zahrnují francouzštinu, italštinu a nizozemštinu). Kampaně rovněž zapojí publikum a zvýší povědomí komunity kulturního dědictví o síle automatických překladatelských služeb. Platforma CrowdHeritage bude sloužit k prezentaci automatických překladů v souvislosti s předměty kulturního dědictví, na které se vztahují.
Výsledky těchto hodnocení poskytnou užitečné poznatky a budou použity ke stanovení přijatelné prahové hodnoty kvality pro zveřejňování automatických překladů do Europeany a pro použití na vlastních platformách organizací kulturního dědictví.
Zjistěte více a zapojte se
Další informace naleznete v úvodním videu, videu o prvních výsledcích projektu, nebo si můžete přečíst o architektuře Europeany Translate v tomto dokumentu prezentovaném na Evropské asociaci pro strojový překlad 2022. Odborníci v oblasti audiovizuální techniky, módy a muzeí budou mít možnost přispět k projektu tím, že pomohou vyhodnotit výsledky v našich specializovaných kampaních, které se uskuteční na začátku roku 2023. Další informace najdete na stránce věnované akci Europeana Pro.
