Erfaringer fra "AI og kulturarv": inkluderende metadata kræver mere end at slette stereotype termer

Offentliggjort 16. maj 2024 ved

Andrei Nesterov (CWI - The National Research Centre for Math and Computer Science in the Netherlands)

Bemærk venligst: Metadataene for dette objekt på E__uropeana.eu bruger forældet sprogbrug til at beskrive romaer.

I dag kan alle gennemse millioner af digitale kulturarvsgenstande online, hvor Europeana.eu alene giver adgang til mere end 50 millioner genstande. Dette er delvist muligt takket være sammenkædede åbne data eller LOD.

Ved hjælp af LOD kan kulturarvsinstitutioner offentliggøre, strukturere og forbinde deres samlinger og tilføje mere standardiserede metadata til artefakter. For eksempel forbinder Rijksmuseum artefakter i sin LOD-samling med Wikidata og Getty Art & Architecture Thesaurus (AAT). LOD-versionen af det berømte Vermeer-maleri "The Milkmaid" er forbundet med begrebet "oliemaling" fra AAT.

Mens LOD giver mange fordele, har det også nogle begrænsninger. Et af de største problemer, forskere og kulturarvsudøvere fremhæver, er, hvordan LOD afspejler skævheder i de data, den er baseret på, og kan udelade nuancer og kulturelle kompleksiteter. Dette er især synligt, når vi ser på artefakter med komplicerede og modstridende historier: genstande relateret til kolonialisme, historisk marginaliserede mennesker og undertrykte samfund. I vores forskning undersøger vi et aspekt af dette problem: Omstridt terminologi.

Omstridte termer i populære datasæt

Hvis det er usandsynligt, at udtrykket "oliemaling" vil fornærme, er historien anderledes med racemæssige slurs, nedsættende henvisninger til sociale grupper eller forældede koloninavne. Man kunne tro, at almindeligt anvendte datasæt, såsom Wikidata eller AAT, er fri for partiske og "dårlige ord". Det er ikke tilfældet, som vores seneste undersøgelse viste.

Vi fandt tusindvis af forekomster af omstridte engelske og hollandske termer i fire datasæt - Wikidata, AAT og to leksikale databaser Princeton WordNet og Open Dutch WordNet. Vi kom ikke selv med en liste over omstridte udtryk, men stolede på publikationen Words Matter fra det hollandske nationalmuseum for verdenskulturer, som forklarer kulturelle følsomheder bag udtryk, der anvendes i museumsbeskrivelser.

Ser man på, hvor præcis omstridte termer dukkede op, fandt vi, at Wikidata bruger dem ofte i foretrukne etiketter. Det betyder, at brugerne ser stereotype udtryk som hovednavne på elementer i grænseflader. Andre datasæt nævner omstridte termer primært i længere beskrivende felter.

Inddragelse af kollektiv ekspertise

Efter at vi havde lært om problemets omfang, ønskede vi at vide, hvordan kulturarvsudøvere og LOD-udviklere kunne løse det, og der var ingen bedre mulighed end at arrangere en workshop på AI- og kulturarvskonferencen i Nederlandene.

Sammen med Laura Hollink, min vejleder ved CWI (det nationale forskningsinstitut for matematik og datalogi i Holland) og en medforfatter udvalgte vi cases, som workshopdeltagerne skulle diskutere. Vores workshop tiltrak 45 personer, og vi dannede otte grupper. For hver gruppe udarbejdede vi en konvolut med en udskrift af et LOD-koncept eller en post fra Europeana.eu med omstridte udtryk, en side fra Words Matter, der forklarer, hvorfor et bestemt udtryk er omstridt, og klæbende noter. Vi bad deltagerne om at foreslå, hvordan repræsentationen af et LOD-koncept eller Europeana.eu-record kan gøres mere inklusiv.

Udskiftning alene er ikke en løsning

Mens mange forslag blev fremsat for at løse problemet, sagde ingen af dem, at bare at erstatte et omstridt udtryk med et passende synonym ville løse problemet helt. Ud over at bruge synonymer understregede deltagerne nødvendigheden af at medtage forklaringer om omstridt terminologi i metadata - hvorfor det er blevet brugt, og hvorfor det er blevet uhensigtsmæssigt. Et notat foreslog, at sådanne forklaringer og diskussioner om omstridte termer kunne være en løsning på skævheder i metadata. I to tilfælde fandt vi noter, der sagde, at der burde være oplysninger fra de samfund, der er misrepræsenteret i metadata.

Vi udvalgte tre sager med samme term — sigøjner — for at se, hvordan forskellige grupper i workshoppen nærmer sig den samme term. To sager med en Europeana.eu-rekord var identiske: De nævnte udtrykket i titlen, beskrivelsen og metadatafeltet "emne" om en film, der dækker romaernes samfundsmæssige udfordringer i London. Det tredje tilfælde var AAT-begrebet "sigøjnervogne". Ord Matter foreslår at bruge udtrykket "roma" i stedet for den nedsættende "sigøjner". Alle tre grupper var enige i dette forslag, men også i, at de ikke blot ville erstatte ordet "sigøjner".

En gruppe foreslog at tilføje flere oplysninger til registrets metadata: at udtrykket "sigøjner" betragtes som nedsættende, at det tidligere blev anvendt i metadataene, og at romaer tidligere blev kaldt "sigøjner". En anden gruppe mente, at det "synes let at ændre ordet ["sigøjner"] til roma, men ville de negative konnotationer i teksten/konteksten [i punktets beskrivelsestekst] ikke blot overføre til udtrykket "roma"?" En yderligere bemærkning siger, at udtrykket kan opfattes forskelligt i forskellige kulturer: Betragtes dette udtryk som nedsættende overalt?

Kan vi designe inkluderende metadata med LOD?

Disse spørgsmål og forslag, vi indsamlede, er ikke nye. Kulturarvsinstitutioner har sammen med tesauri- og ordforrådsejere og redaktører søgt måder at gøre metadata inkluderende på. Der er udarbejdet retningslinjer og glossarer for at hjælpe kuratorer med at repræsentere digitale objekter på en inkluderende måde: f.eks. hvilken thesauri der skal vælges, og hvordan elementerne skal klassificeres korrekt.

Alligevel bruges stereotype udtryk i både artefaktbeskrivelser og LOD-begreber. Hvilken rolle vil nye udviklinger i LOD spille for at løse dette? Hvordan kan vi bruge videngrafer, thesauri og skemaer til at opbygge inkluderende repræsentationer af kulturarv? For LOD-forskere og fagfolk mangler disse spørgsmål stadig at blive behandlet, og udfordringerne ved at repræsentere komplekse, nuancerede og anfægtede kulturarvsgenstande kan være en drivkraft for dem.

Læs mere

Læs mere om Cultural AI Lab-forskningen i open access-papirerne A Knowledge Graph of Contentious Terminology for Inclusive Representation of Cultural Heritage and How Contentious Terms About People and Cultures are Used in Linked Open Data (En vidensgraf om omstridt terminologi til inkluderende repræsentation af kulturarv og hvordan omstridte vilkår om mennesker og kulturer anvendes i sammenkædede åbne data).

Europeana Foundation deltager i projekter som DE-BIAS, der har til formål at udvikle ordforråd, videnbaser ved hjælp af sammenkædede åbne data og automatiserede genkendelses- og markeringsværktøjer, der gør det muligt at markere omstridte termer og kontekstualisere dem i Europeanas database. Læs mere om DE-BIAS-projektet her.

Dette indlæg blev skrevet af Andrei Nesterov, ph.d.-studerende ved Human-Centered Data Analytics-gruppen, CWI - Det Nationale Forskningscenter for Matematik og Datalogi i Holland. Hans forskningsprojekt er en del af Cultural AI Lab.