Oversættelse af Europeana
CEF Telecom-projektet eTranslation Europeana Translate har til formål at styrke forbindelserne mellem eTranslation-infrastrukturen og det fælles europæiske dataområde for kulturarv, der anvendes af Europeana-initiativet, til gavn for begge parter. På den ene side har projektet til formål at forbedre anvendeligheden af kulturarvsressourcer ved at berige kulturarvsdatasæt med flersprogede metadata. På den anden side styrker den de sprogressourcer, der stilles åbent til rådighed gennem koordineringen af de europæiske sprogressourcer med metadata fra millioner af kulturarvsgenstande, som er blevet omhyggeligt udvalgt, renset og normaliseret, så de kan bruges til uddannelsesformål.
Til dette formål har Europeana Translate udviklet og anvendt maskinoversættelsesværktøjer, der er tilpasset kulturarvssektorens behov. Værktøjerne anvendes til at oversætte metadata fra mere end 25 millioner optegnelser, der i øjeblikket er tilgængelige via Europeanas infrastruktur, fra 22 officielle EU-sprog til engelsk, hvilket forbedrer den flersprogede oplevelse for brugerne.
I løbet af projektet trænede partnerne et sæt oversættelsesmotorer leveret af partneren Pangeanic med et udvalg af metadata udvalgt fra Europeana-infrastrukturen, herunder tosprogede og ensprogede data samt flersprogede ordlister. Yderligere data udvalgt fra OPUS-indsamlingswebstedet blev også taget i betragtning for sprog, der ikke var tilstrækkeligt repræsenteret. En række eksperimenter blev udført for at bestemme den bedste kombination af træningsdata og opsætning af motorerne for hvert sprog. Ved at opdele data mellem trænings- og testsæt blev der foretaget en automatisk evaluering baseret på standardparametre (såsom BLEU og TER) for alle sprogpar. Resultaterne viser en betydelig forbedring i forhold til de generiske Pangeanic modeller (før in-domain træning) og eTranslation DSI for de fleste sprog.
Evaluering af den automatiske oversættelse foretaget af menneskelige eksperter
De automatiske oversættelser blev også grundigt evalueret af lingvister og kulturarvseksperter. Evaluatorerne blev bedt om at bedømme de automatiske oversættelser til engelsk på en skala fra 0 til 100 under hensyntagen til aspekter som flydende (grammatisk korrekthed), nøjagtighed (generel betydning) og tilstrækkelighed (korrekt brug af terminologi). De blev også bedt om at give yderligere feedback, herunder rapportering af vigtige og tilbagevendende fejl. Der blev organiseret tre crowdsourcing-kampagner gennem CrowdHeritage-platformen for at inddrage medlemmer af kulturarvssektoren. Samlet set deltog 44 sprogeksperter og 29 fagfolk inden for kulturarv, som gav ret høje bedømmelser (over 80 %) for størstedelen af de 22 sprog.
De resultater, der blev opnået ved menneskelig evaluering, gav os indsigt i maskinoversættelsesmaskinernes adfærd på forskellige sprog. En tilbundsgående statistisk analyse af de tildelte vurderinger fra mennesker i sammenhæng med de automatiske konfidensscorer, der beregnes af maskinoversættelsesmaskinerne, gjorde det muligt for os at fastsætte passende kvalitetstærskler for offentliggørelse af oversættelser fra forskellige sprog til Europeana-infrastrukturen.
Fordele for brugere og kulturarvsinstitutioner
Oversættelsesmaskinerne anvendes af Europeanas infrastruktur til at producere, indeksere, dele og vise automatiske engelske oversættelser af metadata, hvilket vil give folk mulighed for bedre at opdage, analysere og genbruge materiale.
Den positive virkning, som dette arbejde har haft, er blevet bekræftet af en konsekvensanalyse gennemført af 27 lingvister og 18 kulturarvseksperter. På spørgsmålet om den merværdi, som automatiske engelske oversættelser kan tilføre søgning og visning af kulturarvsgenstande på Europeanas websted, fandt begge samfund det vigtigt. De rapporterede også, at de satte pris på den forventede øgede mængde søgeresultater, som ville omfatte kulturarvsgenstande, der i øjeblikket ikke returneres, når der søges på engelsk: 83,4 % og 62,9 % af kulturarvseksperterne og -lingvisterne mente, at denne forbedring var værdifuld.
Desuden kan de oversættelsesmaskiner, der er oprettet i forbindelse med projektet, være nyttige for dataleverandører, der ønsker at oversætte metadataene fra deres samlinger til engelsk og dermed forbedre deres samlingers tilgængelighed. Brugere af MINT-aggregationsplatformen kan gøre direkte brug af den eksisterende API-sammenkobling med motorerne, mens kulturarvsinstitutioner med teknisk ekspertise kan drage fordel af de maskinoversættelsesmotorer, der er let at indsætte, og som er frit tilgængelige i ELG-registret. Alle kulturarvseksperter, der deltog i undersøgelsen, erklærede, at de ville overveje at bruge Europeana Translate-værktøjerne til at berige deres organisations samlinger med automatiske oversættelser for at forbedre opdagelsesmulighederne.
Europeana Translate Event - hvordan maskinoversættelse & flersproget adgang påvirker kulturarven
Er du interesseret i at lære mere om Europeana Translate-projektet, dets metoder og resultater? Vil du også gerne uddybe din viden om de nyeste maskinoversættelsesteknologier, og hvordan de kan anvendes i kulturarvssektoren?
Så kom med til Europeana Translate Event - Hvordan maskinoversættelse & flersproget adgang påvirker kulturarven. Dette er et onlinearrangement, der finder sted den 13. april 2023 fra kl. 14.00 til 17.00 CEST. Du vil høre projektpartnere forklare i detaljer den metode og de resultater, der er opnået i disse to års arbejde. Lignende projekter vil også blive drøftet, idet der altid tages kritisk hensyn til betydningen af automatiserede oversættelser af kulturarvsdata/metadata med overvejelser om fremtidige skridt, anvendelighed og udfordringer i forbindelse med AI-teknologi for kulturarvssektoren.
