Bygga vidare på toppmoderna maskinöversättningstjänster

Publicerad 16 november 2022 av

Eirini Kaldeli (National Technical University of Athens)

Utmaningen med flerspråkig metadata

Europeana arbetar med samlingar som beskrivs på inte mindre än 37 språk och strävar efter att matcha dem med sökord som kan förekomma på alla språk. Alla föremål i samlingarna på Europeanas webbplats beskrivs i en uppsättning metadatafält som förmedlar viktig information om dem, t.ex. deras titel och upphovsman. Denna information hjälper människor att upptäcka och förstå de objekt de är intresserade av. För närvarande innehåller de flesta posterna termer på ett enda språk, dataleverantörernas språk. Denna brist på flerspråkiga metadata hämmar Europeanas mål att erbjuda bred tillgång till sin samling på alla språk.

Att ta itu med flerspråkigheten i detta avseende är en ganska utmanande strävan. Till att börja med är metadata inte ett naturligt språk med fullständiga meningar och förutsägbar grammatik. Det presenteras ofta i korta fraser eller till och med enstaka ord, vilket innebär att det är svårt att hitta det sammanhang som behövs för en korrekt översättning. Dessutom kan de termer som används vara mycket specifika. De kan se ut som en allmän term men har en annan betydelse när de används i ett kulturarvssammanhang.

Till exempel kan den grekiska religiösa termen som återspeglar den sista måltiden felaktigt översättas som hemlig middag. Konsekvensen av denna felaktiga översättning - eller avsaknaden av en översättning till engelska helt och hållet - skulle vara att grekiska artefakter med en titel eller beskrivning som hänvisar till det specifika temat inte skulle visas bland resultaten när någon söker efter målningar om den sista måltiden på Europeanas webbplats.

Bygga en bro mellan Europeana och eTranslation Digital Service communities

Hur arbetar Europeana Translate-projektet med andra intressenter och verktyg för att ta itu med denna utmaning?

eTranslation, som utvecklats av Europeiska kommissionen, är ett språkverktyg som skapats med hjälp av den senaste AI-tekniken och har utbildats i de stora mängder data som finns tillgängliga både internt och som samlats in genom en EU-omfattande insats för insamling av språkresurser. I ELRC-SHARE-databasen som används av eTranslation DSI är kulturarvet underrepresenterat, och till följd av detta är befintliga tekniska lösningar mindre välutrustade för att hantera de specifika aspekterna av kulturarvsdata.

I detta sammanhang är det viktigt att bygga upp samarbeten mellan intressenter från Europeana- och eTranslation-grupperna för att anpassa maskinöversättningsverktygen så att de kan tillgodose kulturarvsområdets särskilda behov. Europeana Translate syftar till att sammanföra eTranslation- och Europeana-grupperna för att ta itu med de utmaningar som båda sektorerna står inför. För att förbättra flerspråkig tillgång till det digitala kulturarvet krävs ett antal kompletterande roller och sakkunskaper som betjänas av Europeanas olika partner (sedem här).

Experiment med maskinöversättning

Under de senaste månaderna har projektpartner samarbetat för att välja ut och på lämpligt sätt segmentera och rensa metadataposter från Europeanas webbplats. Dessa data utnyttjades sedan av projektpartnern Pangeanic, som använde dem utöver 12 miljoner översättningstextsegment från befintliga generiska språkresurser för att förbättra maskinöversättningsalgoritmernas noggrannhet vid översättning av kulturarvsmetadata.

Pangeanic genomförde ett antal experiment med olika kombinationer av träningsdata. Detta omfattade tvåspråkiga metadata från Europeana, syntetiska data från metadata på ett språk och flerspråkiga ordlistor som är relevanta för kulturarvsområdet. Alternativa datakällor, utöver Europeana, övervägdes också för språk för vilka det finns få eller inga resurser med översättningar till engelska. Den automatiska utvärderingen av dessa experiment med hjälp av etablerade mätvärden gjorde det möjligt för partner att bestämma inställningen för de bästa automatiska översättningarna och jämföra dem med de resultat som uppnåtts av andra översättningsverktyg, till exempel Google Translate och eTranslate. I allmänhet visar utvärderingen att resultaten har förbättrats jämfört med generiska modeller för de flesta språk.

Maskinöversättningsmotorerna från denna process kommer att användas för att översätta metadata från de 23 officiella EU-språken till engelska (det 24:e officiella språket). Dessa översättningsmotorer kommer att användas för att generera automatiska engelska översättningar för minst 25 miljoner metadataposter på Europeana-plattformen. Översättningarna kommer att indexeras och visas, vilket förbättrar den flerspråkiga användarupplevelsen på Europeana-plattformen. Genom att besöka den person som söker efter artefakter inspirerade av det religiösa temat "Sista måltiden", efter slutförandet av Europeana Translate, kommer de också att kunna få tillgång till målningar från Grekland, Rumänien och många andra länder som för närvarande inte ingår i sökresultaten.

Dessutom kommer Europeana Translate att öppet tillgängliggöra de valda och korrekt bearbetade språkresurser som produceras via ELRC-SHARE-databasen under en licens för gratis återanvändning (CC0). Detta kommer att göra det möjligt för maskinöversättningsgemenskapen att använda öppna data för att utbilda, anpassa och testa sina översättningstjänster på kulturarvsområdet.

Involvera människor i loopen

Under de kommande månaderna kommer två kompletterande utvärderingar av de automatiska översättningar som produceras av experimenten att genomföras av lingvister och yrkesverksamma inom kulturarvet.

Verktyget för utvärdering av maskinöversättning kommer att användas för att utvärdera noggrannheten och prestandan hos alla 23 översättningsmotorer. Tre crowdsourcingkampanjer kommer att anordnas för att engagera yrkesverksamma inom kulturarvet för att hjälpa till att testa och utvärdera automatisk översättning (de språk som ska utvärderas i detta avseende är franska, italienska och nederländska). Kampanjerna kommer också att engagera publiken och öka medvetenheten i kulturarvssamhället om kraften i automatiska översättningstjänster. Plattformen CrowdHeritage kommer att användas för att presentera de automatiska översättningarna i samband med de kulturarvsföremål som de hänvisar till.

Resultaten av dessa utvärderingar kommer att ge användbara insikter och användas för att fastställa den godtagbara kvalitetströskeln för offentliggörande av automatiska översättningar till Europeana och för användning på kulturarvsorganisationernas egna plattformar.

Ta reda på mer och engagera dig

Om du vill veta mer kan du titta på en introduktionsvideo, en video om projektets första resultat eller läsa om Europeana Translate-arkitekturen i det här dokumentet som presenterades vid European Association for Machine Translation 2022. Yrkesverksamma inom audiovisuella medier, mode och museer kommer att få chansen att bidra till projektet genom att hjälpa till att utvärdera resultaten i våra nischinköpskampanjer, som kommer att äga rum i början av 2023. Håll ett öga på Europeana Pros evenemangssida för att få veta mer.