Att gå "eXXtra" milen: Ny teknik för att berika kulturarvsdata

Publicerad 27 juni 2022 av

Alexander Raginsky (Pangeanic)

Vassilis Tzouvaras (National Technical University of Athens)

Möjliggöra automatisk översättning för berikning

Ett API-verktyg som utvecklats av projektpartnern Pangeanic upptäcker det språk som används i Europeanas metadata och gör det möjligt att maskinöversätta det. Verktyget heter Heritage Metadata Automatic Translation Service (HM ATS) och ingår i en serie semantiska anrikningsverktyg som utvecklats av Europeana XX.

För att skapa verktyget byggde Pangeanic 10 neurala maskinöversättningsmotorer (översätta italienska, tyska, tjeckiska, grekiska, franska, svenska, katalanska, holländska, polska och spanska till engelska). De använde träningsdata från Pangeanics egna databaser och öppna data på internet. Pangeanic anlitade också översättare för att översätta ett begränsat antal poster från Europeanas databaser för att få Europeanas specifika utbildningsdata för flera språk.

Verktyget användes för att översätta och berika cirka två och en halv miljon poster under projektet. Pangeanic har framgångsrikt utökat och finjusterat verktyget för att passa prestandakraven för en så stor mängd data. Använd API-koden själv.

För att utvärdera och validera maskinöversättningens kvalitet inrättade partnerna också ett system för validering av översättningar (baserat på LabelStudio). Yrkesverksamma inom kulturarvet och personer som har relevanta språk som modersmål har validerat mer än 2 700 översättningar med hjälp av detta system. Återkopplingen var överväldigande positiv, vilket bekräftar den höga kvaliteten på den neurala maskinöversättningen och att den fungerar bra för området digitalt kulturarv.

Validerade översättningar kommer att användas för att ytterligare förbättra maskinöversättningsmotorerna i Europeana Translate-projektet, där Pangeanic också deltar. Målet med detta projekt är att hjälpa Europeana att gå vidare med genomförandet av sin flerspråkiga strategi genom att tillhandahålla metadataöversättningar som möjliggör bättre sökning och visning av dess samlingar på deras modersmål och användarnas språk.

Berikning för dataset

SAGE, ett webbaserat verktyg för att producera, berika, publicera, få tillgång till och hantera RDF-dataset, har utvecklats av Atens nationella tekniska universitet (NTUA) för Europeana XX. RDF (resource description framework) är ett språk som används för att representera innehållet i en datamängd. RDF-data kan importeras direkt eller genereras från olika datakällor och format, organiseras i dataset och berikas med hjälp av annotatorer. Dessa berikningar kan sedan valideras manuellt. Alla dataset, inklusive eventuella kommentarer, kan publiceras i RDF-butiker, indexeras och nås via API-anrop.

Tack vare SAGE kan utvalda delar av publicerade datamängder nu också kommenteras och berikas genom externa API-tjänster, till exempel verktyg som länkar data till relevanta Wikidata, DBPedia, Geonames och andra resurser, eller verktyg som upptäcker förekomster av ordförrådstermer i data. När anrikningar görs i SAGE valideras de sedan manuellt genom ett system som möjliggör massvalideringar med hjälp av textgruppering och textfrekvenssortering, tilldelning av valideringsuppgifter till flera användare och noggrann övervakning av den övergripande valideringsprocessen.

SAGE-verktyget användes också i Pagode-projektet för att automatiskt berika mer än 20 000 poster. Den kommer också att användas i CRAFTED-projektet för att analysera metadatafält och text som extraherats från innehållsanalysverktyg för artificiell intelligens i syfte att identifiera och avlägsna osäkerhet från namngivna entiteter. Det slutliga målet är att berika mer än 100 000 poster och möjliggöra användarvalidering och bedömning av automatiskt extraherade enheter.

Läs mer

Du kan utforska alla verktyg som utvecklats inom Europeana XX-projektet (och andra projekt för generiska tjänster) på sidan Europeana Services and Tools.

Att gå "eXXtra" milen: Ny teknik för att berika kulturarvsdata

Dela

Möjliggöra automatisk översättning för berikning

Berikning för dataset

Läs mer