Lärdomar från AI och kulturarvet: inkluderande metadata kräver mer än att radera stereotypa termer

Publicerad 16 maj 2024 av

Andrei Nesterov (CWI - The National Research Centre for Math and Computer Science in the Netherlands)

Vänligen notera följande: metadata för detta objekt på E__uropeana.eu använder inaktuellt språk för att beskriva romer.

I dag kan vem som helst bläddra bland miljontals digitala kulturarvsföremål på nätet, och enbart Europeana.eu ger tillgång till mer än 50 miljoner föremål. Detta är delvis möjligt tack vare länkade öppna data eller LOD.

Med hjälp av LOD kan kulturarvsinstitutioner publicera, strukturera och koppla samman sina samlingar och lägga till mer standardiserade metadata till artefakter. Till exempel kopplar Rijksmuseum artefakter i sin LOD-samling till Wikidata och Getty Art & Architecture Thesaurus (AAT). LOD-versionen av den berömda Vermeer-målningen ”The Milkmaid” är kopplad till begreppet ”oljefärg” från AAT.

Medan LOD ger många fördelar, har det också vissa begränsningar. Ett av de största problemen som forskare och kulturarvsutövare lyfter fram är hur LOD återspeglar fördomar i de data som den bygger på och kan utelämna nyanser och kulturella komplexiteter. Detta är särskilt synligt när vi tittar på artefakter med komplicerade och motstridiga historier: föremål relaterade till kolonialism, historiskt marginaliserade människor och förtryckta samhällen. I vår forskning undersöker vi en aspekt av detta problem: Omtvistad terminologi.

Omtvistad term i populära datamängder

Om termen ”oljefärg” sannolikt inte kommer att förolämpa, är historien annorlunda med rasistiska slarv, nedsättande hänvisningar till sociala grupper eller föråldrade koloniala namn. Man skulle kunna tro att allmänt använda dataset, såsom Wikidata eller AAT, är fria från partiska och ”dåliga ord”. Detta är inte fallet, som vår senaste studie visade.

Vi hittade tusentals förekomster av omtvistade engelska och nederländska termer i fyra dataset - Wikidata, AAT och två lexikaliska databaser Princeton WordNet och Open Dutch WordNet. Vi kom inte upp med en lista över omtvistade termer själva, men förlitade sig på publikationen Words Matter från nederländska National Museum of World Cultures, som förklarar kulturella känsligheter bakom termer som används i museibeskrivningar.

Om vi tittar på var exakt omtvistade termer dök upp, fann vi att Wikidata använder dem ofta i föredragna etiketter. Detta innebär att användare ser stereotypa termer som huvudnamn på objekt i gränssnitt. Andra dataset nämner omstridda termer främst i längre beskrivande fält.

Införande av kollektiv expertis

Efter att vi lärt oss om problemets omfattning ville vi veta hur kulturarvsutövare och LOD-utvecklare kunde ta itu med det, och det fanns ingen bättre möjlighet än att organisera en workshop på AI- och kulturarvskonferensen i Nederländerna.

Tillsammans med Laura Hollink, min handledare på CWI (det nationella forskningsinstitutet för matematik och datavetenskap i Nederländerna) och en medförfattare, valde vi ut fall för workshopdeltagarna att diskutera. Vår workshop lockade 45 personer och vi bildade åtta grupper. För varje grupp förberedde vi ett kuvert med en utskrift av ett LOD-koncept eller en post från Europeana.eu med omtvistade termer, en sida från Words Matter som förklarar varför en viss term är omtvistad och klisterlappar. Vi bad deltagarna att föreslå hur representationen av ett LOD-koncept eller Europeana.eu kan göras mer inkluderande.

Enbart ersättning är inte en lösning

Medan många förslag gjordes för att ta itu med frågan, sade ingen av dem att bara ersätta en omtvistad term med en lämplig synonym skulle lösa problemet helt. Förutom att använda synonymer betonade deltagarna behovet av att inkludera förklaringar om kontroversiell terminologi i metadata - varför det har använts och varför det har blivit olämpligt. En anmärkning föreslog att sådana förklaringar och diskussioner om omtvistade termer skulle kunna vara en lösning på fördomar i metadata. I två fall fann vi anteckningar som säger att det borde finnas information från de samhällen som är felaktiga i metadata.

Vi valde ut tre fall med samma term – zigenare – för att se hur olika grupper i verkstaden närmar sig samma term. Två fall med en Europeana.eu-post var identiska: De nämnde termen i titeln, beskrivningen och metadatafältet ”ämne” om en film om romernas samhällsutmaningar i London. Det tredje fallet var AAT-begreppet ”zigenarvagnar”. Words Matter föreslår att termen ”romer” används i stället för den nedsättande termen ”zigenare”. Alla tre grupperna instämde i detta förslag, men också att de inte bara skulle ersätta ordet ”zigenare”.

En grupp föreslog att ytterligare information skulle läggas till i postens metadata: att termen ”zigenare” ses som nedsättande, att den tidigare användes i metadata och att romer tidigare kallades ”zigenare”. En annan grupp ansåg att det ”verkar lätt att ändra ordet [zigenare] till romer, men skulle de negativa konnotationerna i texten/sammanhanget [i artikelns beskrivningstext] inte bara överföras till termen ’romer’?” Ytterligare en anmärkning säger att termen kan uppfattas på olika sätt i olika kulturer: Betraktas denna term som nedsättande överallt?

Kan vi designa inkluderande metadata med LOD?

Dessa frågor och förslag som vi samlat in är inte nya. Kulturarvsinstitutioner har tillsammans med tesaurier och vokabulärägare och redaktörer letat efter sätt att göra metadata inkluderande. Det finns riktlinjer och ordlistor skrivna för att hjälpa kuratorer att representera digitala objekt inkluderande: t.ex. vilken tesaurus som ska väljas och hur poster ska klassificeras på lämpligt sätt.

Ändå används stereotypa termer i både artefaktbeskrivningar och LOD-koncept. Vilken roll kommer den nya utvecklingen i LOD att spela för att lösa detta? Hur kan vi använda kunskapsdiagram, tesaurier och scheman för att bygga inkluderande representationer av kulturarv? För LOD-forskare och utövare återstår dessa frågor att ta itu med, och utmaningarna med att representera komplexa, nyanserade och omtvistade kulturarvsföremål kan vara en drivkraft för dem.

Upptäck mer

Läs mer om forskningen i Cultural AI Lab i open access-dokumenten A Knowledge Graph of Contentious Terminology for Inclusive Representation of Cultural Heritage and How Contentious Terms About People and Cultures are Used in Linked Open Data.

Europeana Foundation deltar i projekt som DE-BIAS som syftar till att utveckla ordförråd, kunskapsbaser med hjälp av länkade öppna data och verktyg för automatisk igenkänning och flaggning som gör det möjligt att flagga och kontextualisera omtvistade termer i Europeanas databas. Läs mer om DE-BIAS-projektet här.

Detta inlägg är skrivet av Andrei Nesterov, doktorand vid Human-Centered Data Analytics group, CWI - The National Research Centre for Math and Computer Science i Nederländerna. Hans forskningsprojekt är en del av Cultural AI Lab.