Chama-se a atenção para o seguinte: os metadados deste objeto em E__uropeana.eu utilizam uma linguagem desatualizada para descrever os ciganos.
Atualmente, qualquer pessoa pode navegar em linha através de milhões de objetos do património cultural digital, sendo que a Europeana.eu, por si só, dá acesso a mais de 50 milhões de objetos. Isto é possível, em parte, graças a Dados Abertos Vinculados ou LOD.
Utilizando o LOD, as instituições responsáveis pelo património cultural podem publicar, estruturar e ligar as suas coleções e adicionar metadados mais normalizados aos artefactos. Por exemplo, o Rijksmuseum liga artefactos na sua colecção LOD à Wikidata e ao Getty Art & Architecture Thesaurus (AAT). A versão LOD da famosa pintura Vermeer «The Milkmaid» está ligada ao conceito de «pintura de óleo» da AAT.
Embora o LOD traga muitos benefícios, também tem algumas limitações. Um dos maiores problemas que os investigadores e profissionais do património cultural destacam é a forma como o LOD reflete preconceitos nos dados em que se baseia e pode omitir nuances e complexidades culturais. Isto é especialmente visível quando olhamos para artefactos com histórias complicadas e conflitantes: objetos relacionados com o colonialismo, as pessoas historicamente marginalizadas e as comunidades oprimidas. Em nossa pesquisa, investigamos um aspecto deste problema: Terminologia controversa.
Termos controversos em conjuntos de dados populares
Se é pouco provável que o termo «pintura de óleo» ofenda, a história é diferente com insultos raciais, referências depreciativas a grupos sociais ou nomes coloniais desatualizados. Poder-se-ia pensar que conjuntos de dados amplamente utilizados, como o Wikidata ou o AAT, estão isentos de parcialidades e de «palavras más». Este não é o caso, como o nosso estudo recente demonstrou.
Encontrámos milhares de ocorrências de termos controversos em inglês e neerlandês em quatro conjuntos de dados - Wikidata, AAT e duas bases de dados lexicais Princeton WordNet e Open Dutch WordNet. Nós não chegamos a uma lista de termos contenciosos, mas contamos com a publicação Words Matter do Museu Nacional Holandês de Culturas Mundiais, que explica as sensibilidades culturais por trás dos termos usados nas descrições dos museus.
Olhando para onde exatamente os termos controversos apareceram, descobrimos que o Wikidata os usa frequentemente em rótulos preferidos. Isto significa que os utilizadores vêem os termos estereotipados como nomes principais dos itens nas interfaces. Outros conjuntos de dados mencionam termos controversos principalmente em campos descritivos mais longos.
Recolher conhecimentos especializados coletivos
Depois de aprendermos sobre a dimensão do problema, queríamos saber como os profissionais do património cultural e os criadores de LOD poderiam abordá-lo, e não havia melhor oportunidade do que organizar um seminário na conferência sobre IA e património nos Países Baixos.
Juntamente com Laura Hollink, a minha supervisora na CWI (instituto nacional de investigação em matemática e informática nos Países Baixos) e uma coautora, selecionámos casos para os participantes da oficina discutirem. A nossa oficina atraiu 45 pessoas e formámos oito grupos. Para cada grupo, preparámos um envelope com uma impressão de um conceito de LOD ou um registo da Europeana.eu com termos controversos, uma página do Words Matter explicando por que razão um determinado termo é controverso e notas pegajosas. Pedimos aos participantes que sugerissem como tornar a representação de um conceito de LOD ou registo Europeana.eu mais inclusiva.
A substituição por si só não é uma solução
Embora muitas sugestões tenham sido feitas para resolver o problema, nenhuma delas disse que apenas a substituição de um termo controverso por um sinônimo apropriado resolveria o problema completamente. Além de usar sinónimos, os participantes salientaram a necessidade de incluir explicações sobre a terminologia controversa nos metadados - por que razão foi utilizada e por que razão se tornou inadequada. Uma nota sugeriu que tais explicações e discussões sobre termos controversos poderiam ser uma solução para vieses nos metadados. Em dois casos, encontramos notas que dizem que deve haver informações das comunidades que são deturpadas em metadados.
O Tribunal selecionou três casos com o mesmo termo — ciganos — para ver de que forma diferentes grupos no seminário abordam o mesmo termo. Dois processos com um registo Europeana.eu eram idênticos: mencionaram o termo no título, na descrição e no campo de metadados «assunto» sobre um filme que abrange os desafios societais da população cigana em Londres. O terceiro caso foi o conceito AAT de «carruagens ciganas». Words Matter sugere a utilização do termo «cigano» em vez do termo depreciativo «cigano». Os três grupos concordaram com esta sugestão, mas também que não se limitariam a substituir a palavra «cigano».
Um grupo sugeriu o aditamento de mais informações aos metadados do registo: que o termo «cigano» é considerado pejorativo, foi utilizado anteriormente nos metadados e que os ciganos eram anteriormente designados por «cigano». Outro grupo refletiu que «parece fácil mudar a palavra [“cigano”] para Roma, mas as conotações negativas no texto/contexto [no texto de descrição do item] não seriam apenas transferidas para o termo “cigano”?» Mais uma nota diz que o termo pode ser entendido de forma diferente em diferentes culturas: Este termo é visto como depreciativo em toda parte?
Podemos desenhar metadados inclusivos com LOD?
Estas perguntas e sugestões que recolhemos não são novas. As instituições responsáveis pelo património cultural, juntamente com os tesauros e os proprietários e editores de vocabulário, têm procurado formas de tornar os metadados inclusivos. Há diretrizes e glossários escritos para ajudar os curadores a representar objetos digitais de forma inclusiva: por exemplo, quais os tesauros a escolher e como classificar os itens de forma adequada.
No entanto, estão a ser utilizados termos estereotipados tanto em descrições de artefactos como em conceitos de LOD. Que papel desempenharão os novos desenvolvimentos no LOD na resolução deste problema? Como podemos usar gráficos de conhecimento, tesauros e esquemas na construção de representações inclusivas do património cultural? Para os investigadores e profissionais do LOD, estas questões ainda estão por abordar e os desafios de representar objetos do património cultural complexos, matizados e contestados podem ser um motor para eles.
Saiba mais
Saiba mais sobre a investigação do Laboratório de IA Cultural nos documentos de acesso aberto A Knowledge Graph of Contentious Terminology for Inclusive Representation of Cultural Heritage e How Contentious Terms About People and Cultures are Used in Linked Open Data (Um gráfico de conhecimento da terminologia contenciosa para a representação inclusiva do património cultural e como os termos contenciosos sobre pessoas e culturas são utilizados em dados abertos interligados).
A Fundação Europeana participa em projetos como o DE-BIAS que visam desenvolver vocabulários, bases de conhecimento que utilizam dados abertos interligados e ferramentas automatizadas de reconhecimento e sinalização que permitem sinalizar e contextualizar termos contenciosos na base de dados da Europeana. Mais informações sobre o projeto DE-BIAS aqui.
Este post foi escrito por Andrei Nesterov, PhD-estudante do grupo Human-Centered Data Analytics, CWI - Centro Nacional de Investigação em Matemática e Ciência da Computação na Holanda. O seu projeto de investigação faz parte do Laboratório de IA Cultural.
