Veuillez noter: les métadonnées de cet objet sur E__uropeana.eu utilisent un langage obsolète pour décrire les Roms.
Aujourd’hui, tout le monde peut parcourir en ligne des millions d’objets du patrimoine culturel numérique, Europeana.eu fournissant à lui seul l’accès à plus de 50 millions d’objets. Cela est possible en partie grâce à Linked Open Data ou LOD.
Grâce à la LOD, les institutions du patrimoine culturel peuvent publier, structurer et connecter leurs collections, et ajouter des métadonnées plus standardisées aux artefacts. Par exemple, le Rijksmuseum relie les artefacts de sa collection LOD à Wikidata et au Getty Art & Architecture Thesaurus (AAT). La version LOD de la célèbre peinture Vermeer «The Milkmaid» est liée au concept de «peinture à l’huile» de l’AAT.
Bien que le LOD apporte de nombreux avantages, il a également certaines limites. L'un des plus grands problèmes que les chercheurs et les praticiens du patrimoine culturel mettent en évidence est la façon dont la LOD reflète les biais dans les données sur lesquelles elle est basée et peut omettre les nuances et les complexités culturelles. Ceci est particulièrement visible lorsque nous regardons des artefacts avec des histoires compliquées et conflictuelles: objets liés au colonialisme, aux personnes historiquement marginalisées et aux communautés opprimées. Dans notre recherche, nous étudions un aspect de ce problème: terminologie controversée.
Termes litigieux dans les ensembles de données populaires
Si le terme «peinture à l’huile» est peu susceptible d’offenser, l’histoire est différente avec des insultes raciales, des références désobligeantes à des groupes sociaux ou des noms coloniaux obsolètes. On pourrait penser que les ensembles de données largement utilisés, tels que Wikidata ou AAT, sont exempts de biais et de «mauvais mots». Ce n'est pas le cas, comme l'a montré notre étude récente.
Nous avons trouvé des milliers d'occurrences de termes anglais et néerlandais litigieux dans quatre ensembles de données - Wikidata, AAT et deux bases de données lexicales Princeton WordNet et Open Dutch WordNet. Nous n'avons pas dressé nous-mêmes une liste de termes litigieux, mais nous nous sommes appuyés sur la publication Words Matter du Musée national néerlandais des cultures du monde, qui explique les sensibilités culturelles derrière les termes utilisés dans les descriptions de musée.
En regardant où exactement les termes litigieux sont apparus, nous avons constaté que Wikidata les utilise fréquemment dans les étiquettes préférées. Cela signifie que les utilisateurs voient les termes stéréotypés comme les noms principaux des éléments dans les interfaces. D'autres ensembles de données mentionnent des termes litigieux principalement dans des champs descriptifs plus longs.
Apporter une expertise collective
Après avoir pris connaissance de l'ampleur du problème, nous avons voulu savoir comment les praticiens du patrimoine culturel et les développeurs de LOD pouvaient y remédier, et il n'y avait pas de meilleure opportunité que d'organiser un atelier à la conférence sur l'IA et le patrimoine aux Pays-Bas.
Avec Laura Hollink, ma superviseure au CWI (l'institut national de recherche en mathématiques et en informatique aux Pays-Bas) et une co-auteure, nous avons sélectionné des cas à discuter pour les participants à l'atelier. Notre atelier a attiré 45 personnes et nous avons formé huit groupes. Pour chaque groupe, nous avons préparé une enveloppe avec une impression d'un concept LOD ou un enregistrement d'Europeana.eu avec des termes litigieux, une page de Words Matter expliquant pourquoi un terme particulier est litigieux et des notes collantes. Nous avons demandé aux participants de suggérer des moyens de rendre la représentation d’un concept de LOD ou d’un enregistrement Europeana.eu plus inclusive.
Le remplacement seul n'est pas une solution
Bien que de nombreuses suggestions aient été faites pour résoudre le problème, aucune d'entre elles n'a dit que le simple remplacement d'un terme litigieux par un synonyme approprié résoudrait complètement le problème. Outre l'utilisation de synonymes, les participants ont souligné la nécessité d'inclure des explications sur la terminologie controversée dans les métadonnées - pourquoi elle a été utilisée et pourquoi elle est devenue inappropriée. Une note a suggéré que de telles explications et discussions sur les termes litigieux pourraient être une solution aux biais dans les métadonnées. Dans deux cas, nous avons trouvé des notes indiquant qu'il devrait y avoir de l'information provenant des communautés qui sont mal représentées dans les métadonnées.
Nous avons sélectionné trois cas portant le même terme — tsigane — pour voir comment différents groupes de l’atelier abordent le même terme. Deux cas avec un enregistrement Europeana.eu étaient identiques: ils ont mentionné le terme dans le titre, la description et le champ de métadonnées «sujet» d’un film couvrant les défis sociétaux des Roms à Londres. Le troisième cas était le concept AAT de «wagons tsiganes». Words Matter suggère d’utiliser le terme «Roms» au lieu du terme péjoratif «tsigane». Les trois groupes sont d’accord avec cette suggestion, mais aussi qu’ils ne se contenteraient pas de remplacer le mot «tsigane».
Un groupe a suggéré d’ajouter davantage d’informations aux métadonnées de l’enregistrement: que le terme «tsigane» est considéré comme péjoratif, qu’il était utilisé auparavant dans les métadonnées et que les Roms étaient auparavant appelés «tsiganes». Un autre groupe a indiqué qu’il «semble facile de changer le mot [“tsigane”] en Rom, mais les connotations négatives dans le texte/contexte [dans le texte de description de l’article] ne seraient-elles pas simplement transférées au terme “Roms”?» Une note de plus indique que le terme pourrait être perçu différemment selon les cultures: Ce terme est-il considéré comme péjoratif partout?
Pouvons-nous concevoir des métadonnées inclusives avec LOD?
Ces questions et suggestions que nous avons recueillies ne sont pas nouvelles. Les institutions du patrimoine culturel, aux côtés des thésaurus et des propriétaires et éditeurs de vocabulaire, ont cherché des moyens de rendre les métadonnées inclusives. Il existe des lignes directrices et des glossaires écrits pour aider les conservateurs à représenter les objets numériques de manière inclusive: par exemple, quels thésaurus choisir et comment classer les articles de manière appropriée.
Pourtant, des termes stéréotypés sont utilisés dans les descriptions d'artefacts et les concepts de LOD. Quel rôle les nouveaux développements en LOD joueront-ils dans la résolution de ce problème? Comment pouvons-nous utiliser les graphiques de connaissances, les thésaurus et les schémas pour construire des représentations inclusives du patrimoine culturel? Pour les chercheurs et les praticiens du LOD, ces questions doivent encore être abordées et les défis liés à la représentation d'objets du patrimoine culturel complexes, nuancés et contestés peuvent en être un moteur.
En savoir plus
En savoir plus sur la recherche du laboratoire d’IA culturelle dans les documents en libre accès A Knowledge Graph of Contentious Terminology for Inclusive Representation of Cultural Heritage et How Contentious Terms About People and Cultures are Used in Linked Open Data.
La Fondation Europeana participe à des projets tels que DE-BIAS qui visent à développer des vocabulaires, des bases de connaissances utilisant des données ouvertes liées et des outils de reconnaissance et de signalement automatisés qui permettent de signaler et de contextualiser les termes litigieux dans la base de données d'Europeana. Pour en savoir plus sur le projet DE-BIAS, cliquez ici.
Cet article a été écrit par Andrei Nesterov, doctorant au groupe d'analyse de données centrées sur l'humain, CWI - Centre national de recherche en mathématiques et en informatique aux Pays-Bas. Son projet de recherche fait partie du Cultural AI Lab.
