Erkenntnisse aus dem Bereich „KI und Kulturerbe“: Inklusive Metadaten erfordern mehr als das Löschen von Stereotypisierungsbegriffen

Veröffentlicht 16. Mai 2024 von

Andrei Nesterov (CWI - The National Research Centre for Math and Computer Science in the Netherlands)

Bitte beachten Sie: Die Metadaten dieses Objekts auf E__uropeana.eu verwenden eine veraltete Sprache, um Roma zu beschreiben.

Heute kann jeder Millionen von Objekten des digitalen Kulturerbes online durchsuchen, wobei Europeana.eu allein Zugang zu mehr als 50 Millionen Objekten bietet. Dies ist zum Teil dank Linked Open Data oder LOD möglich.

Mithilfe von LOD können Einrichtungen des Kulturerbes ihre Sammlungen veröffentlichen, strukturieren und verknüpfen und Artefakte mit standardisierteren Metadaten versehen. So verbindet das Rijksmuseum Artefakte aus seiner LOD-Sammlung mit Wikidata und dem Getty Art & Architecture Thesaurus (AAT). Die LOD-Version des berühmten Vermeer-Gemäldes „The Milkmaid“ ist mit dem Konzept der „Ölfarbe“ von AAT verbunden.

Während LOD viele Vorteile bringt, hat es auch einige Einschränkungen. Eines der größten Probleme, die Forscher und Praktiker des Kulturerbes hervorheben, ist, wie LOD Verzerrungen in den Daten widerspiegelt, auf denen es basiert, und Nuancen und kulturelle Komplexitäten auslassen kann. Dies ist besonders sichtbar, wenn wir Artefakte mit komplizierten und widersprüchlichen Geschichten betrachten: Objekte im Zusammenhang mit Kolonialismus, historisch marginalisierten Menschen und unterdrückten Gemeinschaften. In unserer Forschung untersuchen wir einen Aspekt dieses Problems: umstrittene Terminologie.

Umstrittene Begriffe in gängigen Datensätzen

Wenn es unwahrscheinlich ist, dass der Begriff „Ölfarbe“ beleidigt wird, unterscheidet sich die Geschichte von rassistischen Verleumdungen, abfälligen Verweisen auf soziale Gruppen oder veralteten Kolonialnamen. Man könnte meinen, dass weit verbreitete Datensätze wie Wikidata oder AAT frei von voreingenommenen und „schlechten Worten“ sind. Dies ist nicht der Fall, wie unsere jüngste Studie gezeigt hat.

Wir fanden Tausende von Vorkommen von umstrittenen englischen und niederländischen Begriffen in vier Datensätzen - Wikidata, AAT und zwei lexikalischen Datenbanken Princeton WordNet und Open Dutch WordNet. Wir haben uns selbst keine Liste strittiger Begriffe ausgedacht, sondern uns auf die Publikation Words Matter des Niederländischen Nationalmuseums für Weltkulturen verlassen, die kulturelle Sensibilitäten hinter den in Museumsbeschreibungen verwendeten Begriffen erklärt.

Bei der Betrachtung, wo genau umstrittene Begriffe auftauchten, stellten wir fest, dass Wikidata sie häufig in bevorzugten Etiketten verwendet. Dies bedeutet, dass Benutzer stereotypisierende Begriffe als Hauptnamen von Elementen in Schnittstellen sehen. Andere Datensätze erwähnen umstrittene Begriffe hauptsächlich in längeren beschreibenden Feldern.

Einbringen von kollektivem Know-how

Nachdem wir etwas über das Ausmaß des Problems erfahren hatten, wollten wir wissen, wie Kulturerbe-Praktiker und LOD-Entwickler es angehen können, und es gab keine bessere Gelegenheit, als einen Workshop auf der KI- und Kulturerbekonferenz in den Niederlanden zu organisieren.

Zusammen mit Laura Hollink, meiner Betreuerin am CWI (dem nationalen Forschungsinstitut für Mathematik und Informatik in den Niederlanden) und einer Co-Autorin, wählten wir Fälle aus, die die Workshop-Teilnehmer diskutieren sollten. Unser Workshop zog 45 Personen an und wir bildeten acht Gruppen. Für jede Gruppe haben wir einen Umschlag mit einem Ausdruck eines LOD-Konzepts oder einen Datensatz von Europeana.eu mit umstrittenen Begriffen, eine Seite von Words Matter, auf der erklärt wird, warum ein bestimmter Begriff umstritten ist, und Haftnotizen vorbereitet. Wir haben die Teilnehmer gebeten, vorzuschlagen, wie die Darstellung eines LOD-Konzepts oder Europeana.eu-Datensatzes inklusiver gestaltet werden kann.

Ersatz allein ist keine Lösung

Während viele Vorschläge gemacht wurden, um das Problem anzugehen, sagte keiner von ihnen, dass das Ersetzen eines strittigen Begriffs durch ein geeignetes Synonym das Problem vollständig lösen würde. Neben der Verwendung von Synonymen betonten die Teilnehmer die Notwendigkeit, Erklärungen zur strittigen Terminologie in Metadaten aufzunehmen - warum sie verwendet wurde und warum sie unangemessen geworden ist. Eine Notiz schlug vor, dass solche Erklärungen und Diskussionen über umstrittene Begriffe eine Lösung für Verzerrungen in Metadaten sein könnten. In zwei Fällen fanden wir Hinweise, dass es Informationen aus den Communities geben sollte, die in Metadaten falsch dargestellt werden.

Der Hof wählte drei Fälle mit demselben Begriff – Zigeuner – aus, um zu sehen, wie sich verschiedene Gruppen im Workshop demselben Begriff nähern. Zwei Fälle mit einem Europeana.eu-Datensatz waren identisch: Sie erwähnten den Begriff im Titel, in der Beschreibung und im Feld „Thema“-Metadaten zu einem Film über die gesellschaftlichen Herausforderungen der Roma in London. Der dritte Fall war der AAT-Begriff „Zigeunerwagen“. Words Matter schlägt vor, den Begriff „Roma“ anstelle des abwertenden Begriffs „Zigeuner“ zu verwenden. Alle drei Gruppen stimmten diesem Vorschlag zu, aber auch, dass sie nicht einfach das Wort „Zigeuner“ ersetzen würden.

Eine Gruppe schlug vor, den Metadaten des Datensatzes weitere Informationen hinzuzufügen: dass der Begriff „Zigeuner“ als abwertend angesehen wird, dass er zuvor in den Metadaten verwendet wurde und dass Roma zuvor als „Zigeuner“ bezeichnet wurden. Eine andere Gruppe kam zu dem Schluss, dass es „leicht scheint, das Wort [‚Zigeuner‘] in Roma zu ändern, aber würden die negativen Konnotationen im Text/Kontext [im Beschreibungstext des Elements] nicht einfach auf den Begriff ‚Roma‘ übertragen?“ Eine weitere Anmerkung besagt, dass der Begriff in verschiedenen Kulturen unterschiedlich wahrgenommen werden könnte: Wird dieser Begriff überall als abwertend angesehen?

Können wir inklusive Metadaten mit LOD entwerfen?

Diese Fragen und Anregungen, die wir gesammelt haben, sind nicht neu. Einrichtungen des Kulturerbes haben neben Thesauri und Wortschatzbesitzern und -redakteuren nach Wegen gesucht, Metadaten inklusiv zu gestalten. Es gibt Richtlinien und Glossare, die Kuratoren dabei helfen, digitale Objekte inklusive darzustellen: zum Beispiel, welche Thesauri zu wählen sind und wie die Elemente angemessen einzuordnen sind.

Stereotypisierungsbegriffe werden jedoch sowohl in Artefaktbeschreibungen als auch in LOD-Konzepten verwendet. Welche Rolle werden neue Entwicklungen im LOD dabei spielen? Wie können wir Wissensgraphen, Thesauri und Schemata nutzen, um inklusive Repräsentationen des kulturellen Erbes zu erstellen? Für LOD-Forscher und -Praktiker müssen diese Fragen noch angegangen werden, und die Herausforderungen, komplexe, nuancierte und umstrittene Kulturerbeobjekte darzustellen, können für sie eine treibende Kraft sein.

Entdecken Sie mehr

Erfahren Sie mehr über die Forschung im Cultural AI Lab in den Open-Access-Papieren A Knowledge Graph of Contentious Terminology for Inclusive Representation of Cultural Heritage and How Contentious Terms About People and Cultures are Used in Linked Open Data.

Die Europeana Foundation beteiligt sich an Projekten wie DE-BIAS, die darauf abzielen, Vokabeln, Wissensdatenbanken mit Linked Open Data und automatisierte Erkennungs- und Kennzeichnungswerkzeuge zu entwickeln, die es ermöglichen, umstrittene Begriffe in der Europeana-Datenbank zu kennzeichnen und zu kontextualisieren. Lesen Sie hier mehr über das DE-BIAS-Projekt.

Dieser Beitrag wurde von Andrei Nesterov geschrieben, PhD-Student an der Human-Centered Data Analytics Group, CWI - The National Research Centre for Math and Computer Science in den Niederlanden. Sein Forschungsprojekt ist Teil des Cultural AI Lab.