Nära möten med AI: en intervju om automatisk semantisk anrikning

Publicerad 4 juli 2024 av

Eirini Kaldeli (National Technical University of Athens)

Marco Rendina (European Fashion Heritage Association)

Alexandros Chortaras (National Technical University of Athens)

Marco Rendina: Låt oss börja med grunderna. Vad är semantisk anrikning?

Eirini Kaldeli: Semantisk anrikning är processen att lägga till ny semantik till ostrukturerade data, till exempel fri text, så att maskiner kan förstå det och bygga anslutningar till det. När det gäller textmetadata som beskriver kulturarvsobjekt kan dessa analyseras och utökas med kontrollerade termer från länkade öppna datamängder eller ordförråd, till exempel Wikidata eller Getty Art & Architecture Thesaurus (AAT). Dessa termer kallas vanligen för anteckningar och kan representera begrepp och attribut (t.ex. ”Costume” eller ”Renaissance”), personer, platser, organisationer eller kronologiska perioder. Till exempel kan strängarna ”Leonardo da Vinci” och ”da Vinci, Leonardo” båda länkas till Wikidata-objektet som representerar den italienska renässanspolymaten.

MR: Varför är det viktigt att berika metadata med termer från länkade öppna datamängder eller ordförråd?

EK: Semantisk berikning tillför mening och sammanhang till digitala samlingar och gör dem lättare att upptäcka. Med tanke på dess betydelse har det varit ett huvudproblem och fokus för insatser från Europeana-initiativet samt enskilda aggregatorer och dataleverantörer.

För det första gör länkade data textmetadata otvetydiga. Strängen ”Leonardo da Vinci” kan till exempel, beroende på sammanhanget, även avse den italienska flygplatsen eller ett slagskepp med samma namn. Var och en av dessa begrepp representeras via en dedikerad URI (Unique Reference Identifier) från Wikidata, och därmed, genom att länka texten med rätt URI, blir det tydligt vad texten hänvisar till.

För det andra gör länkade data det möjligt för oss att hämta ytterligare information om en viss enhet, bygga kopplingar mellan olika resurser och kontextualisera dem. Det gör det till exempel möjligt för oss att koppla ihop föremål som är märkta med termen ”ring” med det bredare begreppet ”smycken” och koppla samman dem med föremål som berikats med termen ”armband”, som också är ett exempel på ”smycken”.

Slutligen kommer länkade data vanligtvis med översättningar, vilket förbättrar möjligheterna till flerspråkig sökning. Detta gör det möjligt för dem som använder onlinedatabaser att bläddra och söka i samlingar på det så kallade semantiska lagret: Den som söker efter ”κόσμημα” (det grekiska ordet för ”smycken”) kommer att kunna upptäcka föremål som beskrivs som ringar och armband.

MR: Alexandros, att berika metadata kräver insatser och resurser som kulturarvsinstitutioner ofta saknar. Hur kan digital teknik bidra till att hantera denna utmaning?

Alexandros Chortaras: Kulturarvsinstitutioner kan använda den senaste tekniken för att automatisera den manuella, tidskrävande och ofta vardagliga processen för anrikning av metadata. Verktyg för bearbetning av naturligt språk kan användas för att analysera textmetadata och upptäcka och klassificera namngivna enheter, såsom personer eller platsnamn, som nämns i ostrukturerad text. Maskininlärningsmetoder används i stor utsträckning för uppgiften att särskilja namngiven enhet, som ansvarar för att besluta om till exempel hänvisningen till ”Leonardo da Vinci” i texten hänvisar till den italienska polymaten eller till slagskeppet. Beroende på textegenskaperna, till exempel dess längd och språk, det ordförråd som vi vill länka det till och vilken typ av enheter vi vill upptäcka, måste man kombinera de verktyg som är mest lämpliga för den specifika uppgiften. Till exempel, från vår erfarenhet av tidigare projekt som CRAFTED, för vissa uppgifter med ett väldefinierat begränsat sammanhang, kan även en enkel lemmatisering och strängmatchningsmetod vara lämpligare än komplexa ML-baserade algoritmer.

MR: Men kan jag lita helt på resultaten av en automatisk algoritm? Tänk om den gör misstag?

AC: Faktum är att automatiska algoritmer som analyserar fritext för namngiven entitetsigenkänning och disambiguation gör misstag. Noggrannheten beror på den aktuella uppgiften och den algoritm som tillämpas. Till exempel saknar korta textbeskrivningar som är vanliga i metadata sammanhang och därmed ML-algoritmer utbildade på Wikipedia-artiklar kan resultera i felaktiga matchningar.

Även om de automatiskt upptäckta länkarna är korrekta kan de dessutom anses vara oönskade i ett visst sammanhang. Att länka metadataposter med termer som representerar färger kan till exempel vara viktigt för en modesamling, men det kan vara oönskat för att beskriva ett manuskript som råkar nämna en viss färg. Således är mänsklig inspektion och validering av automatiska anteckningar oumbärliga. Men eftersom det ofta finns tusentals automatiska anteckningar kan manuell validering vara en mycket resurskrävande process. På en praktisk nivå bör människor granska ett urval av anteckningarna och, beroende på resultaten och målet, besluta om lämpliga filtreringskriterier.

MR: En sista fråga till Eirini. Det finns många algoritmer och bibliotek där ute, men det verkar som om det krävs betydande teknisk kunskap för att ställa in dem. Hur hjälper AI4Culture kulturarvsinstitutioner att dra nytta av denna teknik?

ΕΚ: Inom ramen för AI4Culture-projektet arbetar vi med en plattform, kallad SAGE, som utvecklats av Atens nationella tekniska universitet. SAGE underlättar semantisk berikning av kulturarvsmetadata genom att erbjuda en uppsättning etablerade annotatorer (anrikningsmallar) som är konfigurerade för att tillgodose sektorns behov. Plattformen stöder hela anrikningsflödet, från dataimport och automatisk produktion av semantiska anteckningar till mänsklig validering och datapublicering i det format som Europeana förväntar sig. Verktyget har framgångsrikt använts för att berika kulturarvsmetadata i flera tillämpningar (bland annat genom CRAFTED- och Europeana XX-projekten). Inom ramen för AI4Culture har den utvidgats för att dölja den tekniska komplexiteten hos automatiska semantiska anrikningsalgoritmer och för att stödja sömlös interoperabilitet med det gemensamma europeiska dataområdet för kulturarv. I detta syfte stöder plattformen format som är relevanta för kulturarvsmetadata, såsom EDM (Europeana Data Model), och underlättar direktimport av metadata från kulturarvsrelaterade källor såsom Europeana.eu eller det MINT-verktyg som används av flera Europeana-aggregatorer.

För närvarande kan intresserade människor prova SAGE här. Källkoden finns tillgänglig på GitHub (frontend, backend). Du kan lära dig hur du använder SAGE efter en serie videohandledning och läsa Wiki-instruktionerna

Läs mer

I september 2024 kommer AI4Culture-projektet att lansera en plattform där öppna verktyg, såsom SAGE-verktyget för semantisk anrikning som presenteras ovan, kommer att göras tillgängliga online, tillsammans med tillhörande dokumentation och utbildningsmaterial. Håll ett öga på projektsidan på Europeana Pro för mer information och håll ögonen öppna på projektet LinkedIn och X-konto!