Tenga en cuenta: los metadatos de este objeto en E__uropeana.eu utilizan un lenguaje obsoleto para describir a los gitanos.
Hoy en día, cualquiera puede navegar a través de millones de objetos del patrimonio cultural digital en línea, con Europeana.eu solo proporcionando acceso a más de 50 millones de objetos. Esto es posible en parte gracias a Linked Open Data o LOD.
Usando LOD, las instituciones de patrimonio cultural pueden publicar, estructurar y conectar sus colecciones, y agregar más metadatos estandarizados a los artefactos. Por ejemplo, el Rijksmuseum conecta artefactos de su colección LOD con Wikidata y el Getty Art & Architecture Thesaurus (AAT). La versión LOD de la famosa pintura de Vermeer «The Milkmaid» está relacionada con el concepto de «pintura en aceite» de AAT.
Si bien LOD trae muchos beneficios, también tiene algunas limitaciones. Uno de los mayores problemas que los investigadores y los profesionales del patrimonio cultural destacan es cómo LOD refleja los sesgos en los datos en los que se basa, y puede omitir matices y complejidades culturales. Esto es especialmente visible cuando observamos artefactos con historias complicadas y conflictivas: objetos relacionados con el colonialismo, pueblos históricamente marginados y comunidades oprimidas. En nuestra investigación, investigamos un aspecto de este problema: terminología contenciosa.
Términos polémicos en conjuntos de datos populares
Si es poco probable que el término «pintura de aceite» ofenda, la historia es diferente con insultos raciales, referencias despectivas a grupos sociales o nombres coloniales obsoletos. Se podría pensar que los conjuntos de datos ampliamente utilizados, como Wikidata o AAT, están libres de «palabras malas» y sesgadas. Este no es el caso, como mostró nuestro estudio reciente.
Encontramos miles de ocurrencias de términos polémicos en inglés y holandés en cuatro conjuntos de datos: Wikidata, AAT y dos bases de datos léxicas Princeton WordNet y Open Dutch WordNet. No se nos ocurrió una lista de términos polémicos, sino que confiamos en la publicación Words Matter del Museo Nacional Holandés de Culturas Mundiales, que explica las sensibilidades culturales detrás de los términos utilizados en las descripciones de los museos.
Al observar dónde aparecían exactamente los términos polémicos, descubrimos que Wikidata los usa con frecuencia en las etiquetas preferidas. Esto significa que los usuarios ven los términos estereotipados como nombres principales de los elementos en las interfaces. Otros conjuntos de datos mencionan términos polémicos principalmente en campos descriptivos más largos.
Aportación de conocimientos especializados colectivos
Después de conocer la magnitud del problema, queríamos saber cómo podrían abordarlo los profesionales del patrimonio cultural y los desarrolladores de LOD, y no había mejor oportunidad que organizar un taller en la conferencia sobre IA y patrimonio en los Países Bajos.
Junto con Laura Hollink, mi supervisora en CWI (el instituto nacional de investigación para matemáticas e informática en los Países Bajos) y coautora, seleccionamos casos para que los participantes del taller los discutieran. Nuestro taller atrajo a 45 personas, y formamos ocho grupos. Para cada grupo, preparamos un sobre con una impresión de un concepto LOD o un registro de Europeana.eu con términos polémicos, una página de Words Matter que explica por qué un término en particular es polémico y notas adhesivas. Pedimos a los participantes que sugirieran cómo hacer que la representación de un concepto de LOD o un registro de Europeana.eu fuera más inclusiva.
El reemplazo por sí solo no es una solución
Si bien se hicieron muchas sugerencias para abordar el problema, ninguno de ellos dijo que simplemente reemplazar un término polémico con un sinónimo apropiado resolvería el problema por completo. Además de usar sinónimos, los participantes destacaron la necesidad de incluir explicaciones sobre terminología polémica en los metadatos: por qué se ha utilizado y por qué se ha vuelto inapropiada. Una nota sugirió que tales explicaciones y discusiones sobre términos polémicos podrían ser una solución a los sesgos en los metadatos. En dos casos, encontramos notas que decían que debería haber información de las comunidades que están tergiversadas en los metadatos.
Se seleccionaron tres casos con el mismo término (gitano) para ver cómo diferentes grupos en el taller abordan el mismo término. Dos casos con un registro Europeana.eu eran idénticos: mencionan el término en el título, la descripción y el campo de metadatos «asunto» sobre una película que cubre los retos sociales de la población romaní en Londres. El tercer caso fue el concepto AAT «vagones gitanos». Words Matter sugiere que se utilice el término «gitano» en lugar del término despectivo «gitano». Los tres grupos estuvieron de acuerdo con esta sugerencia, pero también con que no se limitaran a sustituir la palabra «gitano».
Un grupo sugirió añadir más información a los metadatos del registro: que el término «gitano» se considera peyorativo, se utilizó antes en los metadatos y que anteriormente se llamaba «gitano» a los gitanos. Otro grupo reflejó que «parece fácil cambiar la palabra [“gitano”] por romaní, pero ¿las connotaciones negativas en el texto/contexto [en el texto de descripción del artículo] no solo se transferirían al término “gitano”?» Una nota más dice que el término podría percibirse de manera diferente en diferentes culturas: ¿Es este término visto como despectivo en todas partes?
¿Podemos diseñar metadatos inclusivos con LOD?
Estas preguntas y sugerencias que recopilamos no son nuevas. Las instituciones de patrimonio cultural, junto con los tesauros y los propietarios y editores de vocabulario, han estado buscando formas de hacer que los metadatos sean inclusivos. Hay pautas y glosarios escritos para ayudar a los curadores a representar objetos digitales de manera inclusiva: por ejemplo, qué tesauros elegir y cómo clasificar los artículos adecuadamente.
Sin embargo, se están utilizando términos estereotipados tanto en las descripciones de artefactos como en los conceptos LOD. ¿Qué papel desempeñarán los nuevos desarrollos en LOD para resolver esto? ¿Cómo podemos utilizar gráficos de conocimiento, tesauros y esquemas en la construcción de representaciones inclusivas del patrimonio cultural? Para los investigadores y profesionales de LOD, estas preguntas aún deben abordarse, y los desafíos de representar objetos de patrimonio cultural complejos, matizados y controvertidos pueden ser un motor para ellos.
Descubre más
Obtenga más información sobre la investigación de Cultural AI Lab en los documentos de acceso abierto A Knowledge Graph of Contentious Terminology for Inclusive Representation of Cultural Heritage y How Contentious Terms About People and Cultures are Used in Linked Open Data.
La Fundación Europeana participa en proyectos como DE-BIAS que tienen como objetivo desarrollar vocabularios, bases de conocimiento utilizando Linked Open Data, y herramientas automatizadas de reconocimiento y marcado que permiten marcar y contextualizar términos polémicos en la base de datos de Europeana. Lea más sobre el proyecto DE-BIAS aquí.
Esta publicación fue escrita por Andrei Nesterov, estudiante de doctorado en el grupo Human-Centered Data Analytics, CWI - The National Research Centre for Math and Computer Science en los Países Bajos. Su proyecto de investigación forma parte del Laboratorio Cultural AI.
