Med udgangspunkt i de mest avancerede maskinoversættelsestjenester

Offentliggjort 16. november 2022 ved

Eirini Kaldeli (National Technical University of Athens)

Udfordringen med flersprogede metadata

Europeana arbejder med samlinger, der er beskrevet på ikke mindre end 37 sprog, og bestræber sig på at matche dem med søgetermer, der kan forekomme på et hvilket som helst sprog. Alle elementer i samlingerne på Europeanas websted er beskrevet i et sæt metadatafelter, der formidler vigtige oplysninger om dem, f.eks. deres titel og skaber. Disse oplysninger hjælper folk med at opdage og forstå de objekter, de er interesseret i. I øjeblikket indeholder de fleste registre termer på et enkelt sprog, dataleverandørernes sprog. Denne mangel på flersprogede metadata hæmmer Europeanas mål om at tilbyde bred adgang til sin samling på tværs af sprog.

Det er noget af en udfordring at tage fat på flersprogethed i denne henseende. Til at begynde med er metadata ikke et naturligt sprog med fuldstændige sætninger og forudsigelig grammatik. Det er ofte præsenteret i korte sætninger eller endda enkelte ord, hvilket betyder, at den sammenhæng, der er nødvendig for en nøjagtig oversættelse, er vanskelig at finde. Desuden kan de anvendte udtryk være meget specifikke. De kan ligne et generelt udtryk, men har en anden betydning, når de anvendes i en kulturarvssammenhæng.

For eksempel kan det græske religiøse udtryk, der afspejler den sidste nadver, fejlagtigt oversættes som hemmelig middag. Konsekvensen af denne unøjagtige oversættelse - eller manglen på en oversættelse til engelsk helt - ville være, at græske artefakter med en titel eller beskrivelse, der henviser til det pågældende tema, ikke ville blive vist blandt resultaterne, når nogen søger efter malerier om den sidste nadver på Europeanas hjemmeside.

Bygge bro mellem Europeana og eTranslation Digital Service-fællesskaber

Hvordan samarbejder Europeana Translate-projektet med andre interessenter og værktøjer for at tackle denne udfordring?

eTranslation, der er udviklet af Europa-Kommissionen, er et sprogværktøj, der er udviklet ved hjælp af de nyeste AI-teknologier, og som er blevet uddannet i de store mængder data, der er tilgængelige både internt og indsamlet gennem en EU-dækkende indsats for at indsamle sprogressourcer. I ELRC-SHARE-depotet, der anvendes af eTranslation DSI, er kulturarven underrepræsenteret, og som følge heraf er eksisterende teknologiske løsninger mindre veludstyrede til at håndtere de specifikke aspekter af kulturarvsdata.

I den forbindelse er opbygning af samarbejde mellem interessenter fra Europeana- og eTranslation-fællesskaberne afgørende for at tilpasse maskinoversættelsesværktøjer, så de kan opfylde de særlige behov på kulturarvsområdet. Europeana Translate søger at bringe eTranslation og Europeana-fællesskaberne sammen for at tackle de udfordringer, som begge sektorer står over for. Forbedring af flersproget adgang til digital kulturarv kræver en række komplementære roller og ekspertise, som varetages af de forskellige partnere i Europeana Translate (sedem her).

Eksperimenter med maskinoversættelse

I løbet af de seneste måneder har projektpartnerne arbejdet sammen om at udvælge og på passende vis segmentere og rense metadataposter fra Europeanas websted. Disse data blev derefter udnyttet af projektpartneren Pangeanic, som brugte dem ud over 12 millioner oversættelsestekstsegmenter fra eksisterende generiske sprogressourcer til at forbedre nøjagtigheden af maskinoversættelsesalgoritmer ved oversættelse af kulturarvsmetadata.

Pangeanic gennemførte en række eksperimenter, der overvejede forskellige kombinationer af træningsdata. Dette omfattede tosprogede metadata fra Europeana, syntetiske data fremstillet af metadata på ét sprog og flersprogede ordforråd, der er relevante for kulturarvsområdet. Alternative datakilder ud over Europeana blev også overvejet for sprog, for hvilke der kun findes få eller ingen ressourcer med oversættelser til engelsk. Den automatiske evaluering af disse eksperimenter ved hjælp af etablerede målinger gjorde det muligt for partnere at beslutte opsætningen af de automatiske oversættelser af bedste kvalitet og sammenligne dem med de resultater, der er opnået med andre oversættelsesværktøjer, såsom Google Translate og eTranslate. Generelt viser evalueringen forbedringer i resultaterne sammenlignet med generiske modeller for de fleste sprog.

Maskinoversættelsesmaskinerne, der er resultatet af denne proces, vil blive anvendt til at oversætte metadata fra de 23 officielle EU-sprog til engelsk (det 24. officielle sprog). Disse oversættelsesmaskiner vil blive brugt til at generere automatiske engelske oversættelser for mindst 25 millioner metadataposter på Europeana-platformen. Oversættelserne vil blive indekseret og vist, hvilket vil forbedre den flersprogede brugeroplevelse på Europeana-platformen. Gennemgang af den person, der søger efter artefakter inspireret af det religiøse tema "Sidste nadver", efter færdiggørelsen af Europeana Translate, vil de også kunne få adgang til malerier fra Grækenland, Rumænien og mange andre lande, der i øjeblikket ikke er inkluderet i søgeresultaterne.

Desuden vil Europeana Translate åbent stille de udvalgte og korrekt behandlede sprogressourcer, som det har produceret, til rådighed via ELRC-SHARE-depotet under en gratis genbrugslicens (CC0). Dette vil gøre det muligt for maskinoversættelsesfællesskabet at gøre brug af åbne data til at træne, tilpasse og teste deres oversættelsestjenester på kulturarvsområdet.

Inddragelse af mennesker i løkken

I de kommende måneder vil der blive foretaget to supplerende evalueringer af de automatiske oversættelser, som eksperimenterne har resulteret i, af sprogfolk og fagfolk inden for kulturarv.

Maskinoversættelsesevalueringsværktøjet vil blive brugt til at evaluere nøjagtigheden og ydeevnen af alle 23 oversættelsesmotorer. Der vil blive afholdt tre crowdsourcing-kampagner for at inddrage fagfolk inden for kulturarv med henblik på at hjælpe med at teste og evaluere automatisk oversættelse (de sprog, der skal evalueres i denne henseende, omfatter fransk, italiensk og nederlandsk). Kampagnerne vil også engagere publikum og øge bevidstheden i kulturarvssamfundet om betydningen af automatiske oversættelsestjenester. CrowdHeritage-platformen vil blive brugt til at præsentere de automatiske oversættelser i forbindelse med de kulturarvsgenstande, som de henviser til.

Resultaterne af disse evalueringer vil give nyttig indsigt og blive anvendt til at fastsætte den acceptable kvalitetstærskel for offentliggørelse af automatiske oversættelser til Europeana og til brug på kulturarvsorganisationernes egne platforme.

Læs mere og bliv involveret

Hvis du vil vide mere, kan du se en indledende video, en video om projektets første resultater eller læse om Europeana Translate-arkitekturen i dette dokument, der blev præsenteret på European Association for Machine Translation 2022. Fagfolk inden for det audiovisuelle område, mode og museer vil få mulighed for at bidrage til projektet ved at hjælpe med at evaluere resultaterne i vores nicheindkøbskampagner, som vil finde sted i begyndelsen af 2023. Hold øje med Europeana Pro-arrangementssiden for at få mere at vide.