Close Encounters met AI: een interview over automatische semantische verrijking

Gepubliceerd 4 juli 2024 door

Eirini Kaldeli (National Technical University of Athens)

Marco Rendina (European Fashion Heritage Association)

Alexandros Chortaras (National Technical University of Athens)

Marco Rendina: Laten we bij de basis beginnen. Wat is semantische verrijking?

Eirini Kaldeli: Semantische verrijking is het proces van het toevoegen van nieuwe semantiek aan ongestructureerde gegevens, zoals vrije tekst, zodat machines het kunnen begrijpen en er verbindingen mee kunnen leggen. In het geval van tekstuele metadata die cultureel erfgoed items beschrijven, kunnen deze worden geanalyseerd en aangevuld met gecontroleerde termen uit Linked Open datasets of vocabularia, zoals Wikidata of de Getty Art & Architecture Thesaurus (AAT). Deze termen worden gewoonlijk annotaties genoemd en kunnen begrippen en attributen (zoals “kostuum” of “renaissance”), personen, locaties, organisaties of chronologische perioden vertegenwoordigen. De tekenreeksen “Leonardo da Vinci” en “da Vinci, Leonardo” kunnen bijvoorbeeld beide worden gekoppeld aan het Wikidata-item dat de Italiaanse renaissancepolymath voorstelt.

MR: Waarom is het belangrijk om metadata te verrijken met termen uit Linked Open datasets of vocabularia?

EK: Semantische verrijking voegt betekenis en context toe aan digitale collecties en maakt ze gemakkelijker vindbaar. Gezien het belang ervan is het een belangrijk aandachtspunt geweest bij de inspanningen van het Europeana-initiatief en van individuele aggregators en gegevensverstrekkers.

Ten eerste maakt gekoppelde data tekstuele metadata eenduidig. Zo kan de tekenreeks “Leonardo da Vinci” afhankelijk van de context ook verwijzen naar de Italiaanse luchthaven of een slagschip met dezelfde naam. Elk van deze concepten wordt weergegeven via een speciale URI (Unique Reference Identifier) van Wikidata, en dus, door de tekst te koppelen aan de juiste URI, wordt duidelijk waar de tekst naar verwijst.

Ten tweede stellen gekoppelde gegevens ons in staat om aanvullende informatie over een bepaalde entiteit op te halen, verbindingen tussen verschillende bronnen op te bouwen en deze te contextualiseren. Het stelt ons bijvoorbeeld in staat om items die zijn getagd met de term “ring” te koppelen aan het bredere begrip “sieraden” en deze te verbinden met items die zijn verrijkt met de term “armband”, die ook een voorbeeld is van “sieraden”.

Ten slotte worden gekoppelde gegevens meestal geleverd met vertalingen, waardoor de mogelijkheden voor meertalig zoeken worden verbeterd. Dit stelt gebruikers van onlineopslagplaatsen in staat om collecties te doorzoeken en te doorzoeken op de zogenaamde “semantische laag”: iemand die zoekt naar “κόσμημα” (het Griekse woord voor “sieraden”) zal voorwerpen kunnen ontdekken die worden beschreven als ringen en armbanden.

MR: Alexandros, het verrijken van metadata vereist inspanning en middelen die instellingen voor cultureel erfgoed vaak missen. Hoe kunnen digitale technologieën helpen deze uitdaging aan te gaan?

Alexandros Chortaras: Instellingen voor cultureel erfgoed kunnen state-of-the-art technologieën gebruiken om het handmatige, tijdrovende en vaak alledaagse proces van verrijking van metadata te automatiseren. Hulpmiddelen voor natuurlijke taalverwerking kunnen worden gebruikt om tekstuele metagegevens te analyseren en benoemde entiteiten, zoals personen of locatienamen, die in ongestructureerde tekst worden vermeld, op te sporen en te classificeren. Machine learning benaderingen worden op grote schaal gebruikt voor de taak van benoemde entiteit ondubbelzinnigheid, die verantwoordelijk is voor de beslissing of, bijvoorbeeld, de verwijzing naar "Leonardo da Vinci" in de tekst verwijst naar de Italiaanse polymath of naar het slagschip. Afhankelijk van de tekstkenmerken, zoals de lengte en taal, de woordenschat waaraan we het willen koppelen en het type entiteiten dat we willen detecteren, moet men de tools combineren die het meest geschikt zijn voor de specifieke taak. Uit onze ervaring met eerdere projecten zoals CRAFTED blijkt bijvoorbeeld dat voor bepaalde taken met een welomschreven beperkte context zelfs een eenvoudige lemmatiserings- en stringmatchingbenadering geschikter kan zijn dan complexe algoritmen op basis van ML.

MR: Maar kan ik de resultaten van een automatisch algoritme volledig vertrouwen? Wat als het fouten maakt?

AC: Inderdaad, automatische algoritmen die vrije tekst analyseren voor benoemde entiteitsherkenning en ondubbelzinnigheid maken fouten. De nauwkeurigheid hangt af van de taak bij de hand en het toegepaste algoritme. Korte tekstuele beschrijvingen die gebruikelijk zijn in metadata missen bijvoorbeeld context en dus kunnen ML-algoritmen die op Wikipedia-artikelen zijn getraind, resulteren in onjuiste overeenkomsten.

Sterker nog, zelfs als de automatisch gedetecteerde links correct zijn, kunnen ze in een bepaalde context als ongewenst worden beschouwd. Het koppelen van metadatarecords aan termen die kleuren vertegenwoordigen, kan bijvoorbeeld belangrijk zijn voor een modecollectie, maar het kan ongewenst zijn voor het beschrijven van een manuscript dat toevallig een bepaalde kleur vermeldt. Menselijke inspectie en validatie van automatische annotaties zijn dus onmisbaar. Omdat er echter vaak duizenden automatische annotaties zijn, kan handmatige validatie een zeer resource-intensief proces zijn. Op praktisch niveau moeten mensen een geselecteerd monster van de annotaties beoordelen en, afhankelijk van de resultaten en het doel, beslissen over passende filtercriteria.

MR: Een laatste vraag aan Eirini. Er zijn veel algoritmen en bibliotheken die er zijn, maar het lijkt erop dat er aanzienlijke technische kennis nodig is om ze op te zetten. Hoe helpt AI4Culture instellingen voor cultureel erfgoed om gebruik te maken van deze technologieën?

ΕΚ: In het kader van het AI4Culture-project werken we aan een platform, SAGE genaamd, ontwikkeld door de Nationale Technische Universiteit van Athene. SAGE faciliteert de semantische verrijking van metagegevens over cultureel erfgoed door een reeks gevestigde annotators (verrijkingssjablonen) aan te bieden die zijn geconfigureerd om aan de behoeften van de sector te voldoen. Het platform ondersteunt de hele verrijkingsworkflow, van gegevensimport en automatische productie van semantische annotaties tot menselijke validatie en gegevenspublicatie in het door Europeana verwachte formaat. De tool is met succes gebruikt om metagegevens over cultureel erfgoed te verrijken in verschillende toepassingen (onder meer via de projecten CRAFTED en Europeana XX). In de context van AI4Culture is het uitgebreid om de technische complexiteit van automatische semantische verrijkingsalgoritmen te verbergen en naadloze interoperabiliteit met de gemeenschappelijke Europese dataruimte voor cultureel erfgoed te ondersteunen. Daartoe ondersteunt het platform formaten die relevant zijn voor metagegevens over cultureel erfgoed, zoals EDM (Europeana Data Model) en faciliteert het de directe invoer van metagegevens uit bronnen die verband houden met cultureel erfgoed, zoals Europeana.eu of het MINT-instrument dat door verschillende Europeana-aggregators wordt gebruikt.

Voorlopig kunnen geïnteresseerden SAGE hier uitproberen. De broncode is beschikbaar op GitHub (frontend, backend). U kunt leren hoe u SAGE kunt gebruiken na een reeks video-tutorials en het lezen van de Wiki-instructies

Meer informatie

In september 2024 zal het AI4Culture-project een platform lanceren waar open instrumenten, zoals de hierboven gepresenteerde SAGE-tool voor semantische verrijking, online beschikbaar zullen worden gesteld, samen met bijbehorende documentatie en opleidingsmateriaal. Houd de projectpagina op Europeana Pro in de gaten voor meer details en blijf op de hoogte van het project LinkedIn en X account!