Europeana Preložiť
Cieľom projektu eTranslation CEF Telecom Europeana Translate je posilniť prepojenia medzi infraštruktúrou eTranslation a spoločným európskym dátovým priestorom pre kultúrne dedičstvo, ktorý sa zavádza v rámci iniciatívy Europeana, v prospech oboch. Na jednej strane je cieľom projektu zlepšiť použiteľnosť zdrojov kultúrneho dedičstva obohatením súborov údajov o kultúrnom dedičstve o viacjazyčné metaúdaje. Na druhej strane sa ním posilňujú jazykové zdroje sprístupnené otvorene prostredníctvom koordinácie európskych jazykových zdrojov s metaúdajmi z miliónov predmetov kultúrneho dedičstva, ktoré boli starostlivo vybrané, vyčistené a normalizované tak, aby boli prístupné na účely odbornej prípravy.
Na tieto účely Europeana Translate vyvinula a zaviedla nástroje strojového prekladu prispôsobené potrebám odvetvia kultúrneho dedičstva. Nástroje sa používajú na preklad metaúdajov z viac ako 25 miliónov záznamov, ktoré sú v súčasnosti dostupné prostredníctvom infraštruktúry Europeany, z 22 úradných jazykov EÚ do angličtiny, čím sa zlepšuje viacjazyčnosť poskytovaná jej používateľom.
V priebehu projektu partneri vyškolili súbor prekladateľských nástrojov, ktoré poskytol partner Pangeanic, s výberom metaúdajov vybraných z infraštruktúry Europeany vrátane dvojjazyčných a jednojazyčných údajov, ako aj viacjazyčných slovníkov. V prípade jazykov, ktoré neboli dostatočne zastúpené, sa zvážili aj dodatočné údaje vybrané z webového sídla OPUS venovaného zhromažďovaniu údajov. Uskutočnilo sa niekoľko experimentov s cieľom rozhodnúť o najlepšej kombinácii tréningových údajov a nastavení motorov pre každý jazyk. Rozdelením údajov medzi tréningové a testovacie súbory sa vykonalo automatické hodnotenie založené na štandardných metrikách (ako sú BLEU a TER) pre všetky jazykové páry. Výsledky poukazujú na značné zlepšenie v porovnaní s generickými modelmi Pangeanic (pred školením v doméne) a DSI eTranslation pre väčšinu jazykov.
Vyhodnotenie automatického prekladu ľudskými odborníkmi
Automatické preklady boli takisto predmetom rozsiahleho hodnotenia lingvistami a odborníkmi na kultúrne dedičstvo. Hodnotitelia boli požiadaní, aby ohodnotili automatické preklady do angličtiny na stupnici od 0 do 100 s prihliadnutím na aspekty, ako je plynulosť (gramatická správnosť), presnosť (všeobecný význam) a primeranosť (správne používanie terminológie). Boli tiež požiadaní, aby poskytli dodatočnú spätnú väzbu vrátane oznamovania dôležitých a opakujúcich sa chýb. Prostredníctvom platformy CrowdHeritage sa zorganizovali tri kampane crowdsourcingu s cieľom zapojiť členov sektora kultúrneho dedičstva. Celkovo sa na nich zúčastnilo 44 odborných lingvistov a 29 odborníkov v oblasti kultúrneho dedičstva, ktorí vo väčšine z 22 jazykov udelili pomerne vysoké hodnotenie (nad 80 %).
Výsledky získané ľudským hodnotením nám poskytli poznatky o správaní strojového prekladu pre rôzne jazyky. Hĺbková štatistická analýza pridelených hodnotení od ľudí v korelácii s automatickými hodnoteniami spoľahlivosti vypočítanými motormi strojového prekladu nám umožnila určiť primerané prahové hodnoty kvality pre uverejňovanie prekladov z rôznych jazykov do infraštruktúry Europeany.
Prínosy pre používateľov a inštitúcie správy kultúrneho dedičstva
Infraštruktúra Europeany využíva prekladové nástroje na tvorbu, indexovanie, zdieľanie a zobrazovanie automatických anglických prekladov metaúdajov, ktoré ľuďom umožnia lepšie objavovať, analyzovať a opätovne používať materiál.
Pozitívny vplyv tejto práce potvrdil prieskum posúdenia vplyvu, ktorý vyplnilo 27 lingvistov a 18 odborníkov v oblasti kultúrneho dedičstva. Na otázku o pridanej hodnote, ktorú môžu automatické anglické preklady priniesť pri vyhľadávaní a zobrazovaní predmetov kultúrneho dedičstva na webovom sídle Europeany, obe komunity považovali za dôležité. Takisto uviedli, že ocenili očakávaný zvýšený počet výsledkov vyhľadávania, ktoré by zahŕňali položky kultúrneho dedičstva, ktoré sa pri vyhľadávaní v angličtine v súčasnosti nevracajú: 83,4 % odborníkov na kultúrne dedičstvo a 62,9 % lingvistov považovalo toto zlepšenie za cenné.
Prekladateľské nástroje vytvorené v rámci projektu môžu byť navyše užitočné pre poskytovateľov údajov, ktorí chcú preložiť metaúdaje svojich zbierok do angličtiny, čím sa zlepší prístupnosť ich zbierok. Používatelia agregačnej platformy MINT môžu priamo využívať existujúce prepojenie API s nástrojmi, zatiaľ čo inštitúcie správy kultúrneho dedičstva s technickými odbornými znalosťami môžu využívať ľahko nasaditeľné nástroje strojového prekladu, ktoré sú verejne dostupné v archíve ELG. Všetci odborníci na kultúrne dedičstvo, ktorí sa zúčastnili na prieskume, uviedli, že zvážia použitie nástrojov Europeana Translate na obohatenie zbierok svojej organizácie o automatické preklady s cieľom zlepšiť ich vyhľadateľnosť.
Podujatie Europeana Translate – ako strojový preklad a amp; viacjazyčný prístup ovplyvňuje kultúrne dedičstvo
Máte záujem dozvedieť sa viac o projekte Europeana Translate, jeho metodike a výsledkoch? Chceli by ste tiež prehĺbiť svoje znalosti o najmodernejších technológiách strojového prekladu a o tom, ako ich možno uplatniť v odvetví kultúrneho dedičstva?
Potom sa k nám pripojte na podujatí Europeana Translate – How machine translation & multilingual access impacts cultural heritage (Ako strojový preklad a amp; viacjazyčný prístup ovplyvňuje kultúrne dedičstvo). Toto je online podujatie, ktoré sa koná 13. apríla 2023 od 14.00 do 17.00 hod. SELČ. Budete počuť partnerov projektu podrobne vysvetliť metodiku a výsledky získané v týchto dvoch rokoch práce. Diskutovať sa bude aj o podobných projektoch, pričom sa vždy kriticky zohľadní význam automatizovaných prekladov údajov/metaúdajov o kultúrnom dedičstve s úvahami o budúcich krokoch, použiteľnosti a výzvach technológie umelej inteligencie pre odvetvie kultúrneho dedičstva.
