Vă rugăm să rețineți: metadatele acestui obiect de pe E__uropeana.eu utilizează un limbaj învechit pentru a descrie romii.
Astăzi, oricine poate naviga online prin milioane de obiecte de patrimoniu cultural digital, numai Europeana.eu oferind acces la peste 50 de milioane de obiecte. Acest lucru este posibil în parte datorită datelor deschise conectate sau LOD.
Utilizând LOD, instituțiile de patrimoniu cultural își pot publica, structura și conecta colecțiile și pot adăuga mai multe metadate standardizate la artefacte. De exemplu, Rijksmuseum conectează artefactele din colecția sa LOD la Wikidata și la Getty Art & Architecture Thesaurus (AAT). Versiunea LOD a celebrei picturi Vermeer „The Milkmaid” este legată de conceptul de „vopsea în ulei” de la AAT.
În timp ce LOD aduce multe beneficii, are și unele limitări. Una dintre cele mai mari probleme pe care cercetătorii și practicienii în domeniul patrimoniului cultural o evidențiază este modul în care LOD reflectă prejudecățile în datele pe care se bazează și poate omite nuanțele și complexitatea culturală. Acest lucru este vizibil mai ales atunci când ne uităm la artefacte cu istorii complicate și conflictuale: obiecte legate de colonialism, persoane marginalizate istoric și comunități oprimate. În cercetarea noastră, investigăm un aspect al acestei probleme: terminologie controversată.
Termeni contencioși în seturile de date populare
Dacă este puțin probabil ca termenul „vopsea în ulei” să ofenseze, povestea este diferită în ceea ce privește insultele rasiale, trimiterile peiorative la grupuri sociale sau denumirile coloniale depășite. S-ar putea crede că seturile de date utilizate pe scară largă, cum ar fi Wikidata sau AAT, nu conțin cuvinte părtinitoare și „rele”. Nu este cazul, așa cum a arătat studiul nostru recent.
Am găsit mii de apariții de termeni contencioși englezi și olandezi în patru seturi de date - Wikidata, AAT și două baze de date lexicale Princeton WordNet și Open Dutch WordNet. Nu am venit noi înșine cu o listă de termeni contencioși, ci ne-am bazat pe publicația Words Matter de la Muzeul Național Olandez al Culturilor Mondiale, care explică sensibilitățile culturale din spatele termenilor utilizați în descrierile muzeelor.
Analizând unde au apărut exact termenii contencioși, am constatat că Wikidata îi folosește frecvent în etichetele preferate. Aceasta înseamnă că utilizatorii văd termenii stereotipi ca nume principale ale elementelor din interfețe. Alte seturi de date menționează termeni contencioși în principal în câmpuri descriptive mai lungi.
Introducerea expertizei colective
După ce am aflat despre amploarea problemei, am vrut să știm cum ar putea să o abordeze practicienii în domeniul patrimoniului cultural și dezvoltatorii LOD și nu a existat o oportunitate mai bună decât organizarea unui atelier la conferința privind IA și patrimoniul din Țările de Jos.
Împreună cu Laura Hollink, supervizorul meu de la CWI (Institutul Național de Cercetare în Matematică și Informatică din Olanda) și co-autor, am selectat cazuri pe care participanții la atelier să le discute. Atelierul nostru a atras 45 de persoane și am format opt grupuri. Pentru fiecare grup, am pregătit un plic cu o imprimare a unui concept LOD sau o înregistrare de pe Europeana.eu cu termeni contencioși, o pagină din Words Matter care explică de ce un anumit termen este contencios și note lipicioase. Am solicitat participanților să sugereze cum să facă reprezentarea unui concept LOD sau a înregistrării Europeana.eu mai incluzivă.
Înlocuirea nu este o soluție
Deși au fost făcute multe sugestii pentru a aborda problema, niciunul dintre ei nu a spus că doar înlocuirea unui termen controversat cu un sinonim adecvat ar rezolva problema complet. Pe lângă utilizarea sinonimelor, participanții au subliniat necesitatea de a include explicații cu privire la terminologia controversată în metadate - de ce a fost utilizată și de ce a devenit inadecvată. O notă a sugerat că astfel de explicații și discuții despre termenii contencioși ar putea fi o soluție la prejudecățile din metadate. În două cazuri, am găsit note care spun că ar trebui să existe informații din partea comunităților care sunt denaturate în metadate.
Curtea a selectat trei cazuri cu același termen – țigani – pentru a vedea modul în care diferite grupuri din cadrul atelierului abordează același termen. Două cazuri cu o înregistrare Europeana.eu au fost identice: au menționat termenul în titlu, în descriere și în câmpul de metadate „subiect” despre un film care acoperă provocările societale cu care se confruntă romii din Londra. Al treilea caz a fost conceptul AAT de „vagoane pentru țigani”. Words Matter sugerează utilizarea termenului „rom” în locul termenului derogatoriu „țigan”. Toate cele trei grupuri au fost de acord cu această sugestie, dar și cu faptul că nu vor înlocui pur și simplu cuvântul „țigani”.
Un grup a sugerat adăugarea mai multor informații la metadatele înregistrării: că termenul „țigan” este considerat peiorativ, că a fost utilizat anterior în metadate și că romii au fost numiți anterior „țigani”. Un alt grup a reflectat că, „Se pare că este ușor să se schimbe cuvântul [«țigan»] în romi, dar conotațiile negative din text/context [din textul descrierii articolului] nu s-ar transfera doar la termenul «rom»?” O altă notă spune că termenul ar putea fi perceput diferit în diferite culturi: Este acest termen văzut ca peiorativ peste tot?
Putem proiecta metadate incluzive cu LOD?
Aceste întrebări și sugestii pe care le-am colectat nu sunt noi. Instituțiile de patrimoniu cultural, alături de proprietarii și editorii de tezaure și vocabular, au căutat modalități de a face ca metadatele să fie incluzive. Există orientări și glosare scrise pentru a ajuta curatorii să reprezinte obiectele digitale, inclusiv: de exemplu, ce tezaure să alegi și cum să clasifici elementele în mod corespunzător.
Cu toate acestea, termenii stereotipi sunt utilizați atât în descrierile artefactelor, cât și în conceptele LOD. Ce rol vor juca noile evoluții în LOD în rezolvarea acestei probleme? Cum putem folosi graficele cunoașterii, tezaurele și schemele în construirea reprezentărilor incluzive ale patrimoniului cultural? Pentru cercetătorii și practicienii LOD, aceste întrebări nu au fost încă abordate, iar provocările reprezentate de reprezentarea unor obiecte de patrimoniu cultural complexe, nuanțate și contestate pot fi un motor pentru acestea.
Descoperiți mai multe
Aflați mai multe despre cercetarea Laboratorului de inteligență artificială culturală în lucrările cu acces liber Un grafic al cunoștințelor privind terminologia contencioasă pentru reprezentarea incluzivă a patrimoniului cultural și modul în care sunt utilizați termeni contencioși despre oameni și culturi în datele deschise legate.
Fundația Europeana participă la proiecte precum DE-BIAS, care urmăresc să dezvolte vocabulare, baze de cunoștințe utilizând date deschise conectate și instrumente automate de recunoaștere și marcare care permit marcarea și contextualizarea termenilor contencioși în baza de date a Europeana. Citiți mai multe despre proiectul DE-BIAS aici.
Acest articol a fost scris de Andrei Nesterov, doctorand la grupul Human-Centered Data Analytics, CWI - Centrul Național de Cercetare pentru Matematică și Informatică din Olanda. Proiectul său de cercetare face parte din Laboratorul Cultural AI.
