Europeana Přeložit
Cílem projektu eTranslation CEF Telecom Europeana Translate je posílit propojení mezi infrastrukturou eTranslation a společným evropským datovým prostorem pro kulturní dědictví, který zavedla iniciativa Europeana, a to ve prospěch obou. Cílem projektu je na jedné straně zlepšit využitelnost zdrojů kulturního dědictví obohacením datových souborů kulturního dědictví o vícejazyčná metadata. Na druhé straně rozšiřuje jazykové zdroje, které byly otevřeně zpřístupněny prostřednictvím koordinace evropských jazykových zdrojů, o metadata z milionů předmětů kulturního dědictví, které byly pečlivě vybrány, vyčištěny a normalizovány tak, aby se staly přístupnými pro účely odborné přípravy.
Za tímto účelem Europeana Translate vyvinula a zavedla nástroje pro strojový překlad přizpůsobené potřebám odvětví kulturního dědictví. Tyto nástroje se používají k překladu metadat více než 25 milionů záznamů, které jsou v současné době k dispozici prostřednictvím infrastruktury Europeany, z 22 úředních jazyků EU do angličtiny, čímž se zlepší vícejazyčný zážitek poskytovaný jejím uživatelům.
V průběhu projektu partneři vyškolili soubor překladačů, které poskytl partner Pangeanic, s výběrem metadat vybraných z infrastruktury Europeany, včetně dvojjazyčných a jednojazyčných dat, jakož i vícejazyčných slovníků. U jazyků, které nebyly dostatečně zastoupeny, byly vzaty v úvahu i další údaje vybrané z internetových stránek sbírky OPUS. Byla provedena řada experimentů s cílem rozhodnout o nejlepší kombinaci tréninkových dat a nastavení motorů pro každý jazyk. Rozdělením dat mezi tréninkové a testovací sady bylo provedeno automatické vyhodnocení na základě standardních metrik (např. BLEU a TER) pro všechny jazykové páry. Výsledky ukazují značné zlepšení ve srovnání s obecnými modely Pangeanic (před školením v doméně) a DSI eTranslation pro většinu jazyků.
Hodnocení automatického překladu lidskými odborníky
Automatické překlady rovněž prošly rozsáhlým hodnocením ze strany lingvistů a odborníků na kulturní dědictví. Hodnotitelé byli požádáni, aby ohodnotili automatické překlady do angličtiny na stupnici od 0 do 100 s ohledem na aspekty, jako je plynulost (gramatická správnost), přesnost (obecný význam) a přiměřenost (řádné používání terminologie). Byli rovněž požádáni, aby poskytli další zpětnou vazbu, včetně nahlášení důležitých a opakujících se chyb. Prostřednictvím platformy CrowdHeritage byly uspořádány tři crowdsourcingové kampaně s cílem zapojit členy odvětví kulturního dědictví. Celkově se jich zúčastnilo 44 odborných lingvistů a 29 odborníků na kulturní dědictví, kteří u většiny z 22 jazyků získali poměrně vysoké hodnocení (více než 80 %).
Výsledky získané lidským hodnocením nám poskytly poznatky o chování strojových překladačů pro různé jazyky. Hloubková statistická analýza přidělených hodnocení od lidí v korelaci s automatickým hodnocením spolehlivosti vypočítaným strojovým překladačem nám umožnila určit vhodné prahové hodnoty kvality pro zveřejňování překladů z různých jazyků do infrastruktury Europeany.
Přínosy pro uživatele a instituce kulturního dědictví
Překladatelské nástroje využívá infrastruktura Europeany k vytváření, indexování, sdílení a zobrazování automatických anglických překladů metadat, což lidem umožní lépe objevovat, analyzovat a opětovně používat materiály.
Pozitivní dopad této práce potvrdil průzkum posouzení dopadů, který vyplnilo 27 lingvistů a 18 odborníků na kulturní dědictví. Na otázku, jakou přidanou hodnotu mohou mít automatické anglické překlady pro vyhledávání a zobrazování předmětů kulturního dědictví na internetových stránkách Europeany, obě komunity odpověděly, že je to důležité. Rovněž uvedli, že oceňují očekávané zvýšené množství výsledků vyhledávání, které by zahrnovaly předměty kulturního dědictví, které nejsou v současné době vráceny při vyhledávání v angličtině: 83,4 % odborníků na kulturní dědictví a 62,9 % lingvistů považovalo toto zlepšení za cenné.
Překladatelské nástroje vytvořené v rámci projektu mohou být navíc užitečné pro poskytovatele údajů, kteří chtějí přeložit metadata svých sbírek do angličtiny, a zlepšit tak přístupnost svých sbírek. Uživatelé platformy pro agregaci MINT mohou přímo využívat stávající propojení API se stroji, zatímco instituce kulturního dědictví s technickými odbornými znalostmi mohou využít snadno nasaditelných strojových překladačů, které jsou otevřeně k dispozici v úložišti ELG. Všichni odborníci na kulturní dědictví, kteří se průzkumu zúčastnili, uvedli, že zváží využití nástrojů Europeana Translate k obohacení sbírek své organizace o automatické překlady, aby se zlepšila dohledatelnost.
Europeana Translate Event - jak strojový překlad & amp; vícejazyčný přístup ovlivňuje kulturní dědictví
Máte zájem dozvědět se více o projektu Europeana Translate, jeho metodice a výsledcích? Chtěli byste si také prohloubit své znalosti o nejmodernějších technologiích strojového překladu a o tom, jak je lze uplatnit v odvětví kulturního dědictví?
Připojte se k nám na akci Europeana Translate Event – How machine translation & multilingual access impacts cultural heritage (Přeložit do Europeany – Jak strojový překlad a vícejazyčný přístup ovlivňuje kulturní dědictví). Jedná se o online akci, která se koná 13. dubna 2023 od 14:00 do 17:00 SELČ. Uslyšíte projektové partnery podrobně vysvětlit metodiku a výsledky získané v těchto dvou letech práce. Podobné projekty budou rovněž projednány, vždy s kritickým ohledem na význam automatizovaných překladů dat/metadat kulturního dědictví s úvahami o budoucích krocích, použitelnosti a výzvách technologie umělé inteligence pro odvětví kulturního dědictví.
