Si prega di notare: i metadati di questo oggetto su E__uropeana.eu utilizzano un linguaggio obsoleto per descrivere i Rom.
Oggi chiunque può sfogliare milioni di beni del patrimonio culturale digitale online, con Europeana.eu che da solo fornisce l'accesso a oltre 50 milioni di oggetti. Ciò è possibile in parte grazie a Linked Open Data o LOD.
Utilizzando il LOD, gli istituti di tutela del patrimonio culturale possono pubblicare, strutturare e collegare le loro collezioni e aggiungere metadati più standardizzati agli artefatti. Ad esempio, il Rijksmuseum collega gli artefatti della sua collezione LOD a Wikidata e al Getty Art & Architecture Thesaurus (AAT). La versione LOD del famoso dipinto Vermeer "The Milkmaid" è collegata al concetto di "vernice a olio" di AAT.
Mentre LOD porta molti vantaggi, ha anche alcune limitazioni. Uno dei maggiori problemi che i ricercatori e gli operatori del patrimonio culturale evidenziano è come il LOD rifletta i pregiudizi nei dati su cui si basa e possa omettere sfumature e complessità culturali. Ciò è particolarmente visibile quando osserviamo manufatti con storie complicate e conflittuali: oggetti legati al colonialismo, alle persone storicamente emarginate e alle comunità oppresse. Nella nostra ricerca, esaminiamo un aspetto di questo problema: terminologia controversa.
Termini controversi in set di dati popolari
Se è improbabile che il termine "pittura a olio" offenda, la storia è diversa con insulti razziali, riferimenti spregiativi a gruppi sociali o nomi coloniali obsoleti. Si potrebbe pensare che insiemi di dati ampiamente utilizzati, come Wikidata o AAT, siano privi di "parole sbagliate" e di parte. Questo non è il caso, come ha dimostrato il nostro recente studio.
Abbiamo trovato migliaia di casi di termini inglesi e olandesi controversi in quattro set di dati - Wikidata, AAT e due database lessicali Princeton WordNet e Open Dutch WordNet. Non abbiamo stilato noi stessi un elenco di termini controversi, ma ci siamo affidati alla pubblicazione Words Matter del Museo nazionale olandese delle culture del mondo, che spiega la sensibilità culturale dietro i termini utilizzati nelle descrizioni dei musei.
Osservando dove sono apparsi esattamente i termini controversi, abbiamo scoperto che Wikidata li usa frequentemente nelle etichette preferite. Ciò significa che gli utenti vedono i termini stereotipati come nomi principali degli elementi nelle interfacce. Altri set di dati menzionano termini controversi principalmente in campi descrittivi più lunghi.
Acquisizione di competenze collettive
Dopo aver appreso la portata del problema, volevamo sapere come i professionisti del patrimonio culturale e gli sviluppatori di LOD potevano affrontarlo, e non c'era opportunità migliore che organizzare un workshop alla conferenza sull'intelligenza artificiale e il patrimonio nei Paesi Bassi.
Insieme a Laura Hollink, mia supervisore presso CWI (l'istituto nazionale di ricerca per la matematica e l'informatica nei Paesi Bassi) e co-autrice, abbiamo selezionato casi per i partecipanti al workshop da discutere. Il nostro laboratorio ha attirato 45 persone e abbiamo formato otto gruppi. Per ogni gruppo, abbiamo preparato una busta con una stampa di un concetto LOD o un record di Europeana.eu con termini controversi, una pagina di Words Matter che spiega perché un particolare termine è controverso e note appiccicose. Abbiamo chiesto ai partecipanti di suggerire come rendere più inclusiva la rappresentazione di un concetto di LOD o di un record di Europeana.eu.
La sostituzione da sola non è una soluzione
Mentre molti suggerimenti sono stati fatti per affrontare il problema, nessuno di loro ha detto che solo la sostituzione di un termine controverso con un sinonimo appropriato risolverebbe completamente il problema. Oltre a utilizzare sinonimi, i partecipanti hanno sottolineato la necessità di includere spiegazioni sulla terminologia controversa nei metadati - perché è stata utilizzata e perché è diventata inappropriata. Una nota ha suggerito che tali spiegazioni e discussioni sui termini controversi potrebbero essere una soluzione ai pregiudizi nei metadati. In due casi, abbiamo trovato note che dicono che ci dovrebbero essere informazioni dalle comunità che sono travisate nei metadati.
Gli auditor della Corte hanno selezionato tre casi con lo stesso termine — zingari — per verificare in che modo i diversi gruppi del seminario si avvicinano allo stesso termine. Due casi con un record Europeana.eu erano identici: hanno menzionato il termine nel titolo, nella descrizione e nel campo dei metadati "soggetto" relativo a un film sulle sfide sociali dei rom a Londra. Il terzo caso riguardava il concetto di AAT «gypsy wagons» (carri gitani). Words Matter suggerisce di utilizzare il termine "Rom" invece del dispregiativo "zingaro". Tutti e tre i gruppi concordano con questa proposta, ma anche sul fatto che non si limiteranno a sostituire la parola "zingaro".
Un gruppo ha suggerito di aggiungere ulteriori informazioni ai metadati del record: che il termine "zingaro" è considerato peggiorativo, è stato utilizzato in precedenza nei metadati e che i rom erano precedentemente chiamati "zingari". Un altro gruppo ha riflettuto sul fatto che "sembra facile cambiare la parola ["zingara"] in Rom, ma le connotazioni negative nel testo/contesto [nel testo descrittivo dell'articolo] non si limiterebbero a trasferire al termine "Rom"?" Un'altra nota afferma che il termine potrebbe essere percepito in modo diverso nelle diverse culture: Questo termine è visto come dispregiativo ovunque?
Possiamo progettare metadati inclusivi con LOD?
Queste domande e suggerimenti che abbiamo raccolto non sono nuove. Le istituzioni del patrimonio culturale, insieme ai proprietari e agli editori di thesauri e vocaboli, hanno cercato modi per rendere inclusivi i metadati. Esistono linee guida e glossari scritti per aiutare i curatori a rappresentare gli oggetti digitali in modo inclusivo: ad esempio, quali thesauri scegliere e come classificare gli elementi in modo appropriato.
Eppure i termini stereotipati vengono utilizzati sia nelle descrizioni degli artefatti che nei concetti LOD. Quale ruolo svolgeranno i nuovi sviluppi nel LOD per risolvere questo problema? Come possiamo usare i grafici della conoscenza, i tesauri e gli schemi nella costruzione di rappresentazioni inclusive del patrimonio culturale? Per i ricercatori e gli operatori LOD, queste domande devono ancora essere affrontate e le sfide di rappresentare oggetti del patrimonio culturale complessi, sfumati e contestati possono essere un driver per loro.
Scopri di più
Ulteriori informazioni sulla ricerca del laboratorio di IA culturale sono disponibili nei documenti ad accesso aperto A Knowledge Graph of Contentious Terminology for Inclusive Representation of Cultural Heritage e How Contentious Terms About People and Cultures are Used in Linked Open Data.
La Fondazione Europeana partecipa a progetti come DE-BIAS che mirano a sviluppare vocabolari, basi di conoscenza utilizzando Linked Open Data e strumenti automatizzati di riconoscimento e segnalazione che consentono di contrassegnare e contestualizzare termini controversi nella banca dati di Europeana. Maggiori informazioni sul progetto DE-BIAS sono disponibili qui.
Questo post è stato scritto da Andrei Nesterov, dottorando presso il gruppo Human-Centered Data Analytics, CWI - The National Research Centre for Math and Computer Science nei Paesi Bassi. Il suo progetto di ricerca fa parte del Cultural AI Lab.
