Europeana Översätt
Syftet med eTranslation CEF Telecom-projektet Europeana Translate är att stärka förbindelserna mellan eTranslation-infrastrukturen och det gemensamma europeiska dataområdet för kulturarv, som inrättats genom Europeana-initiativet, till gagn för båda parter. Å ena sidan syftar projektet till att förbättra kulturarvsresursernas användbarhet genom att berika kulturarvsdataset med flerspråkiga metadata. Å andra sidan förbättras de språkresurser som görs öppet tillgängliga genom den europeiska samordningen av språkresurser med metadata från miljontals kulturarvsföremål, som noggrant har valts ut, rengjorts och normaliserats så att de blir tillgängliga för utbildningsändamål.
För detta ändamål har Europeana Translate utvecklat och använt maskinöversättningsverktyg som är anpassade till kulturarvssektorns behov. Verktygen används för att översätta metadata från mer än 25 miljoner poster som för närvarande finns tillgängliga via Europeanas infrastruktur från 22 officiella EU-språk till engelska, vilket förbättrar användarnas flerspråkiga upplevelse.
Under projektets gång utbildade partnerna en uppsättning översättningsmotorer som tillhandahölls av partnern Pangeanic med ett urval av metadata som valts ut från Europeanas infrastruktur, inklusive tvåspråkiga och enspråkiga data samt flerspråkiga ordförråd. Ytterligare uppgifter som valts ut från OPUS insamlingswebbplats övervägdes också för språk som inte var tillräckligt representerade. Ett antal experiment utfördes för att bestämma den bästa kombinationen av träningsdata och inställning av motorerna för varje språk. Genom att dela upp data mellan utbildnings- och testuppsättningar genomfördes en automatisk utvärdering baserad på standardmått (t.ex. BLEU och TER) för alla språkpar. Resultaten visar en avsevärd förbättring jämfört med de generiska Pangeanic-modellerna (före internutbildningen) och eTranslation DSI för de flesta språk.
Utvärdering av den automatiska översättningen av mänskliga experter
De automatiska översättningarna utvärderades också ingående av lingvister och kulturarvsexperter. Utvärderarna ombads att betygsätta de automatiska översättningarna till engelska på en skala från 0 till 100, med beaktande av aspekter som flyt (grammatisk korrekthet), noggrannhet (allmän betydelse) och tillräcklighet (korrekt användning av terminologi). De ombads också att lämna ytterligare återkoppling, inbegripet rapportering av viktiga och återkommande fel. Tre crowdsourcingkampanjer anordnades via CrowdHeritage-plattformen för att engagera medlemmar i kulturarvssektorn. Totalt sett deltog 44 sakkunniga lingvister och 29 kulturarvsexperter, som gav ganska höga betyg (över 80 %) för de flesta av de 22 språken.
De resultat som erhållits genom mänsklig utvärdering gav oss insikter om maskinöversättningsmotorernas beteende för olika språk. En djupgående statistisk analys av de tilldelade betygen från människor, i samband med de automatiska konfidenspoäng som beräknats av maskinöversättningsmotorerna, gjorde det möjligt för oss att bestämma lämpliga kvalitetströsklar för publicering av översättningar från olika språk till Europeanas infrastruktur.
Fördelar för användare och kulturarvsinstitutioner
Översättningsmotorerna används av Europeanas infrastruktur för att producera, indexera, dela och visa automatiska engelska översättningar av metadata, vilket kommer att göra det möjligt för människor att bättre upptäcka, analysera och återanvända material.
Den positiva inverkan som detta arbete har bekräftats av en konsekvensbedömning som fyllts i av 27 lingvister och 18 kulturarvsexperter. På frågan om det mervärde som automatiska engelska översättningar kan tillföra vid sökning och visning av kulturarvsföremål på Europeanas webbplats ansåg båda befolkningsgrupperna att det var viktigt. De rapporterade också att de uppskattade den förväntade ökningen av antalet sökresultat, som skulle omfatta kulturarvsföremål som för närvarande inte returneras när man söker på engelska: 83,4 % respektive 62,9 % av kulturarvsexperterna och språkexperterna ansåg att denna förbättring var värdefull.
Dessutom kan projektets översättningsmotorer vara användbara för uppgiftslämnare som vill översätta metadata från sina samlingar till engelska, vilket förbättrar deras samlingars tillgänglighet. Användare av plattformen för MINT-aggregering kan direkt använda den befintliga API-sammanlänkningen med motorerna, medan kulturarvsinstitutioner med teknisk expertis kan dra nytta av de lättanvända maskinöversättningsmotorer som är öppet tillgängliga i ELG-databasen. Alla kulturarvsexperter som deltog i undersökningen förklarade att de skulle överväga att använda Europeana Translate-verktygen för att berika sin organisations samlingar med automatiska översättningar för att förbättra upptäckbarheten.
Europeana Translate Event - hur maskinöversättning och flerspråkig åtkomst påverkar kulturarvet
Är du intresserad av att lära dig mer om Europeana Translate-projektet, dess metodik och resultat? Vill du också fördjupa dina kunskaper om toppmodern maskinöversättningsteknik och hur den kan tillämpas inom kulturarvssektorn?
Följ sedan med oss på Europeana Translate Event - How machine translation & multilingual access impacts cultural heritage. Detta är ett onlineevenemang som äger rum den 13 april 2023 kl. 14.00–17.00 CEST. Du kommer att höra projektpartnerna förklara i detalj den metod och de resultat som uppnåtts under dessa två års arbete. Liknande projekt kommer också att diskuteras, alltid med kritisk hänsyn till vikten av automatiserade översättningar av kulturarvsdata/metadata med reflektioner om framtida steg, användbarhet och utmaningar med AI-teknik för kulturarvssektorn.
