Leren van “AI en erfgoed”: inclusieve metadata vereisen meer dan het wissen van stereotyperingstermen

Gepubliceerd 16 mei 2024 door

Andrei Nesterov (CWI - The National Research Centre for Math and Computer Science in the Netherlands)

Let op: de metadata van dit object op E__uropeana.eu gebruiken verouderde taal om Roma te beschrijven.

Tegenwoordig kan iedereen online door miljoenen objecten van digitaal cultureel erfgoed bladeren, waarbij Europeana.eu alleen al toegang biedt tot meer dan 50 miljoen objecten. Dit is mede mogelijk dankzij Linked Open Data of LOD.

Met behulp van LOD kunnen instellingen voor cultureel erfgoed hun collecties publiceren, structureren en verbinden, en meer gestandaardiseerde metadata toevoegen aan artefacten. Zo verbindt het Rijksmuseum artefacten in zijn LOD-collectie met Wikidata en de Getty Art & Architecture Thesaurus (AAT). De LOD-versie van het beroemde Vermeer-schilderij 'Het Melkmeisje' is verbonden met het concept 'olieverf' van AAT.

Hoewel LOD veel voordelen biedt, heeft het ook enkele beperkingen. Een van de grootste problemen die onderzoekers en beoefenaars van cultureel erfgoed benadrukken, is hoe LOD vooroordelen weerspiegelt in de gegevens waarop het is gebaseerd, en nuances en culturele complexiteiten kan weglaten. Dit is vooral zichtbaar als we kijken naar artefacten met gecompliceerde en tegenstrijdige geschiedenissen: objecten gerelateerd aan kolonialisme, historisch gemarginaliseerde mensen en onderdrukte gemeenschappen. In ons onderzoek onderzoeken we één aspect van dit probleem: Omstreden terminologie.

Omstreden termen in populaire datasets

Als het onwaarschijnlijk is dat de term “olieverf” beledigend is, is het verhaal anders met raciale laster, denigrerende verwijzingen naar sociale groepen of verouderde koloniale namen. Men zou kunnen denken dat veelgebruikte datasets, zoals Wikidata of AAT, vrij zijn van bevooroordeelde en “slechte woorden”. Dit is niet het geval, zoals onze recente studie heeft aangetoond.

We vonden duizenden gevallen van controversiële Engelse en Nederlandse termen in vier datasets - Wikidata, AAT en twee lexicale databases Princeton WordNet en Open Dutch WordNet. We hebben zelf geen lijst met controversiële termen bedacht, maar vertrouwden op de publicatie Words Matter van het Nationaal Museum voor Wereldculturen, waarin culturele gevoeligheden achter termen in museumbeschrijvingen worden uitgelegd.

Kijkend naar waar precies omstreden termen verschenen, ontdekten we dat Wikidata ze vaak gebruikt in voorkeursetiketten. Dit betekent dat gebruikers stereotyperingstermen zien als hoofdnamen van items in interfaces. Andere datasets vermelden controversiële termen voornamelijk in langere beschrijvende velden.

Collectieve expertise inbrengen

Nadat we de omvang van het probleem hadden geleerd, wilden we weten hoe cultureel erfgoedbeoefenaars en LOD-ontwikkelaars het konden aanpakken, en er was geen betere kans dan het organiseren van een workshop op de AI- en erfgoedconferentie in Nederland.

Samen met Laura Hollink, mijn supervisor bij het CWI (het nationale onderzoeksinstituut voor wiskunde en informatica in Nederland) en een co-auteur, selecteerden we cases voor de deelnemers aan de workshop om te bespreken. Onze werkplaats trok 45 mensen aan en we vormden acht groepen. Voor elke groep hebben we een envelop voorbereid met een afdruk van een LOD-concept of een record van Europeana.eu met controversiële termen, een pagina van Words Matter waarin wordt uitgelegd waarom een bepaalde term controversieel is en plaknotities. We vroegen de deelnemers om voor te stellen hoe de weergave van een LOD-concept of Europeana.eu-record inclusiever kan worden gemaakt.

Vervanging alleen is geen oplossing

Hoewel er veel suggesties werden gedaan om het probleem aan te pakken, zei geen van hen dat het vervangen van een controversiële term door een passend synoniem het probleem volledig zou oplossen. Naast het gebruik van synoniemen benadrukten de deelnemers de noodzaak om uitleg over controversiële terminologie in metadata op te nemen - waarom het is gebruikt en waarom het ongepast is geworden. Een opmerking suggereerde dat dergelijke uitleg en discussies over controversiële termen een oplossing zouden kunnen zijn voor vooroordelen in metadata. In twee gevallen vonden we notities die zeiden dat er informatie zou moeten zijn van de gemeenschappen die verkeerd worden weergegeven in metagegevens.

We selecteerden drie gevallen met dezelfde term — zigeuner — om te zien hoe verschillende groepen in de workshop dezelfde term benaderen. Twee zaken met een Europeana.eu-record waren identiek: zij noemden de term in de titel, beschrijving en het metagegevensveld “onderwerp” over een film over de maatschappelijke uitdagingen van de Roma in Londen. Het derde geval betrof het AAT-concept „zigeunerwagens”. Words Matter stelt voor de term “Roma” te gebruiken in plaats van de denigrerende “zigeuner”. Alle drie de groepen waren het eens met deze suggestie, maar ook dat zij niet alleen het woord “zigeuner” zouden vervangen.

Eén groep stelde voor meer informatie toe te voegen aan de metagegevens van de record: dat de term “zigeuner” als pejoratief wordt beschouwd, dat deze term eerder in de metagegevens werd gebruikt en dat Roma voorheen “zigeuner” werden genoemd. Een andere groep gaf aan dat het “lijkt gemakkelijk om het woord [“zigeuner”] in Roma te veranderen, maar zouden de negatieve connotaties in de tekst/context [in de beschrijvingstekst van het item] niet alleen overgaan op de term “Roma”?” Een andere opmerking zegt dat de term in verschillende culturen anders kan worden opgevat: Wordt deze term overal als denigrerend gezien?

Kunnen we inclusieve metadata ontwerpen met LOD?

Deze vragen en suggesties die we hebben verzameld zijn niet nieuw. Cultureel erfgoed instellingen, samen met thesauri en vocabulaire eigenaren en redacteuren, zijn op zoek naar manieren om metadata inclusief te maken. Er zijn richtlijnen en woordenlijsten geschreven om curatoren te helpen digitale objecten inclusief te vertegenwoordigen: bijvoorbeeld welke thesauri je moet kiezen en hoe je items op de juiste manier kunt classificeren.

Toch worden stereotype termen gebruikt in zowel artefactbeschrijvingen als LOD-concepten. Welke rol zullen nieuwe ontwikkelingen in LOD spelen bij het oplossen hiervan? Hoe kunnen we kennisgrafieken, thesauri en schema's gebruiken bij het bouwen van inclusieve representaties van cultureel erfgoed? Voor LOD-onderzoekers en -beoefenaars moeten deze vragen nog worden aangepakt, en de uitdagingen van het vertegenwoordigen van complexe, genuanceerde en betwiste cultureel erfgoedobjecten kunnen een drijfveer voor hen zijn.

Ontdek meer

Lees meer over het onderzoek van het Cultural AI Lab in de open access papers A Knowledge Graph of Contentious Terminology for Inclusive Representation of Cultural Heritage en How Contentious Terms About People and Cultures are Used in Linked Open Data.

De Europeana Foundation neemt deel aan projecten zoals DE-BIAS die tot doel hebben woordenlijsten, kennisbanken met behulp van Linked Open Data en geautomatiseerde herkennings- en markeringstools te ontwikkelen waarmee controversiële termen kunnen worden gemarkeerd en gecontextualiseerd in de database van Europeana. Lees hier meer over het DE-BIAS-project.

Dit artikel is geschreven door Andrei Nesterov, PhD-student bij de Human-Centered Data Analytics groep, CWI - Het Nationaal Onderzoekscentrum voor Wiskunde en Informatica in Nederland. Zijn onderzoeksproject maakt deel uit van het Cultural AI Lab.