Går den 'eXXtra' mile: nye teknologier til berigelse af kulturarvsdata

Offentliggjort 27. juni 2022 ved

Alexander Raginsky (Pangeanic)

Vassilis Tzouvaras (National Technical University of Athens)

Muliggør automatisk oversættelse til berigelse

Et API-værktøj, der er udviklet af projektpartneren Pangeanic, registrerer det sprog, der anvendes i Europeanas metadata, og gør det muligt at maskinoversætte det. Dette værktøj, der har fået navnet Heritage Metadata Automatic Translation Service (HM ATS), er en del af en række semantiske berigelsesværktøjer, der er udviklet af Europeana XX.

For at skabe værktøjet byggede Pangeanic 10 neurale maskinoversættelsesmotorer (oversætter italiensk, tysk, tjekkisk, græsk, fransk, svensk, catalansk, hollandsk, polsk og spansk til engelsk). De anvendte træningsdata fra Pangeanics egne datalagre og åbne data på internettet. Pangeanic ansatte også oversættere til at oversætte en begrænset mængde optegnelser fra Europeana-arkiver for at få Europeana-specifikke uddannelsesdata for flere sprog.

Værktøjet blev brugt til at oversætte og berige ca. to og en halv million optegnelser i løbet af projektet. Pangeanic har med succes udvidet og finjusteret værktøjet til at passe til præstationskravene til en så massiv datamængde. Brug API-koden selv.

For at evaluere og validere maskinoversættelsens kvalitet oprettede partnerne også et oversættelsesvalideringssystem (baseret på LabelStudio). Kulturarvseksperter og personer, der taler relevante sprog som modersmål, har valideret mere end 2.700 oversættelser ved hjælp af dette system. Feedbacken var overvældende positiv og bekræftede den høje kvalitet af den neurale maskinoversættelse, og at den fungerer godt for området digital kulturarv.

Validerede oversættelser vil blive anvendt til yderligere at forbedre maskinoversættelsesmaskinerne i Europeana Translate-projektet, som Pangeanic også er involveret i. Målet med dette projekt er at hjælpe Europeana med at gøre fremskridt med gennemførelsen af dets flersprogede strategi ved at levere metadataoversættelser, der vil muliggøre bedre søgning og visning af dets samlinger på tværs af deres modersmål og brugernes sprog.

Berigelse af datasæt

SAGE, et webbaseret værktøj til fremstilling, berigelse, udgivelse, adgang til og forvaltning af RDF-datasæt, blev udviklet af Athens nationale tekniske universitet (NTUA) for Europeana XX. RDF (Resource Description Framework) er et sprog, der bruges til at repræsentere indholdet af et datasæt. RDF-data kan importeres direkte eller genereres fra forskellige datakilder og -formater, organiseres i datasæt og beriges ved hjælp af annotatorer. Disse berigninger kan derefter valideres manuelt. Alle datasæt, herunder eventuelle anmærkninger, kan offentliggøres i RDF-butikker, indekseres og tilgås via API-opkald.

Takket være SAGE kan udvalgte dele af offentliggjorte datasæt nu også kommenteres og beriges gennem eksterne API-tjenester, såsom værktøjer, der forbinder data med relevante Wikidata, DBPedia, Geonames og andre ressourcer, eller værktøjer, der registrerer forekomster af ordforråd i dataene. Når berigninger er foretaget i SAGE, valideres de derefter manuelt via et system, der tillader massevalideringer ved hjælp af tekstgruppering og tekstfrekvenssortering, tildeling af valideringsopgaver til flere brugere og tæt overvågning af den overordnede valideringsproces.

SAGE-værktøjet blev også brugt i Pagode-projektet til automatisk at berige mere end 20.000 poster. Den vil også blive anvendt i CRAFTED-projektet til at analysere metadatafelter og tekst udtrukket fra værktøjer til analyse af kunstig intelligens-indhold med henblik på at identificere og fjerne usikkerhed fra navngivne enheder. Det endelige mål er at berige mere end 100.000 poster og muliggøre brugervalidering og vurdering af automatisk udtrukne enheder.

Læs mere

Du kan udforske alle de værktøjer, der er udviklet under Europeana XX-projektet (og andre projekter vedrørende generiske tjenester) på siden Europeana Services and Tools.

Går den 'eXXtra' mile: nye teknologier til berigelse af kulturarvsdata

Del

Muliggør automatisk oversættelse til berigelse

Berigelse af datasæt

Læs mere