Atkreipkite dėmesį: šio objekto metaduomenyse svetainėje E__uropeana.eu romų tautybės žmonėms apibūdinti vartojama pasenusi kalba.
Šiandien internete gali naršyti milijonai skaitmeninio kultūros paveldo objektų, o vien Europeana.eu suteikia prieigą prie daugiau kaip 50 mln. objektų. Tai iš dalies įmanoma dėl susietųjų atvirųjų duomenų arba LOD.
Naudodamos LOD, kultūros paveldo įstaigos gali skelbti, struktūrizuoti ir sujungti savo kolekcijas, taip pat pridėti labiau standartizuotų metaduomenų prie artefaktų. Pavyzdžiui, "Rijksmuseum" savo LOD kolekcijoje sujungia artefaktus su "Wikidata" ir "Getty Art &"; Architektūros tezauras (AAT). Garsaus Vermeer paveikslo „The Milkmaid“ LOD versija yra susijusi su AAT „aliejaus dažų“ sąvoka.
Nors LOD atneša daug naudos, ji taip pat turi tam tikrų apribojimų. Viena iš didžiausių problemų, kurias pabrėžia tyrėjai ir kultūros paveldo specialistai, yra tai, kaip LOD atspindi duomenų, kuriais ji grindžiama, šališkumą ir gali praleisti niuansus ir kultūrinius sudėtingumus. Tai ypač akivaizdu, kai žiūrime į artefaktus su sudėtingomis ir prieštaringomis istorijomis: objektai, susiję su kolonializmu, istoriškai marginalizuotais žmonėmis ir engiamomis bendruomenėmis. Savo tyrime mes tiriame vieną šios problemos aspektą: Prieštaringa terminologija.
Ginčytinos sąvokos populiariuose duomenų rinkiniuose
Jei mažai tikėtina, kad terminas „naftos dažai“ bus įžeistas, istorija skiriasi nuo rasinių šmeižtų, menkinančių nuorodų į socialines grupes ar pasenusių kolonijinių pavadinimų. Galima manyti, kad plačiai naudojamuose duomenų rinkiniuose, pavyzdžiui, „Wikidata“ arba AAT, nėra šališkų ir „blogų žodžių“. Taip nėra, kaip parodė neseniai atliktas tyrimas.
Mes nustatėme tūkstančius ginčytinų anglų ir olandų terminų keturiuose duomenų rinkiniuose - Wikidata, AAT ir dviejose leksinėse duomenų bazėse Princeton WordNet ir Open Dutch WordNet. Mes patys nesudarėme ginčytinų terminų sąrašo, bet pasikliovėme Nyderlandų nacionalinio pasaulio kultūrų muziejaus leidiniu Words Matter, kuriame paaiškinami kultūriniai jautrumai, susiję su muziejų aprašymuose vartojamais terminais.
Pažvelgę į tai, kur tiksliai atsirado ginčytini terminai, nustatėme, kad "Wikidata" juos dažnai naudoja pageidaujamose etiketėse. Tai reiškia, kad vartotojai mato stereotipų terminus kaip pagrindinius sąsajų elementų pavadinimus. Kituose duomenų rinkiniuose minimi ginčytini terminai, visų pirma ilgesniuose aprašomuosiuose laukuose.
Kolektyvinės kompetencijos įgijimas
Sužinoję apie problemos mastą, norėjome sužinoti, kaip kultūros paveldo specialistai ir LOD kūrėjai galėtų ją spręsti, ir nebuvo geresnės galimybės nei surengti praktinį seminarą DI ir paveldo konferencijoje Nyderlanduose.
Kartu su Laura Hollink, mano vadove CWI (Nyderlandų nacionaliniame matematikos ir informatikos mokslinių tyrimų institute) ir bendraautore, atrinkome atvejus seminaro dalyviams aptarti. Mūsų dirbtuvės pritraukė 45 žmones, ir mes suformavome aštuonias grupes. Kiekvienai grupei paruošėme voką su atspausdinta LOD koncepcija arba Europeana.eu įrašą su ginčytinais terminais, Words Matter puslapį, paaiškinantį, kodėl konkretus terminas yra ginčytinas, ir lipnius užrašus. Paprašėme dalyvių pasiūlyti, kaip LOD koncepciją arba Europeana.eu įrašą padaryti įtraukesnį.
Vien pakeitimas nėra išeitis
Nors buvo pateikta daug pasiūlymų, kaip spręsti šią problemą, nė vienas iš jų nesakė, kad tiesiog pakeitus ginčytiną terminą tinkamu sinonimu problema būtų visiškai išspręsta. Be sinonimų vartojimo, dalyviai pabrėžė būtinybę į metaduomenis įtraukti paaiškinimus apie ginčytiną terminologiją - kodėl ji buvo naudojama ir kodėl ji tapo netinkama. Viename pranešime buvo teigiama, kad tokie paaiškinimai ir diskusijos apie ginčytinus terminus galėtų būti metaduomenų šališkumo sprendimas. Dviem atvejais nustatėme pastabas, kuriose teigiama, kad turėtų būti informacijos iš bendruomenių, kurios yra neteisingai pateiktos metaduomenyse.
Atrinkome tris to paties termino – čigonų – atvejus, kad pamatytume, kaip skirtingos dirbtuvių grupės supranta tą patį terminą. Dvi bylos su Europeana.eu įrašu buvo identiškos: pavadinime, aprašyme ir metaduomenų laukelyje „dalykas“ jie paminėjo terminą, susijusį su filmu apie romų tautybės žmonių socialines problemas Londone. Trečiasis atvejis buvo AAT sąvoka „čigonų vagonai“. Žodžiais „Matera“ siūloma vartoti terminą „romai“, o ne šmeižikišką žodį „čigonai“. Visos trys grupės pritarė šiam pasiūlymui, tačiau taip pat nurodė, kad jos ne tik pakeis žodį „čigonas“.
Viena grupė pasiūlė į įrašo metaduomenis įtraukti daugiau informacijos: kad terminas „čigonai“ laikomas pejoratyviu, anksčiau jis buvo vartojamas metaduomenyse ir kad romai anksčiau buvo vadinami „čigonais“. Kita grupė atspindėjo, kad ji „mano, kad žodį [„čigonas“] lengva pakeisti į romus, tačiau ar neigiamos konotacijos tekste / kontekste [prekės aprašymo tekste] ne tik pereitų prie termino „romai“?“ Dar vienoje pastaboje teigiama, kad skirtingose kultūrose šis terminas gali būti suvokiamas skirtingai: Ar šis terminas visur laikomas šmeižikišku?
Ar galime kurti įtraukius metaduomenis su LOD?
Šie klausimai ir pasiūlymai, kuriuos surinkome, nėra nauji. Kultūros paveldo įstaigos kartu su tezaurų ir žodynų savininkais ir redaktoriais ieško būdų, kaip užtikrinti, kad metaduomenys būtų įtraukūs. Yra parengtos gairės ir glosarijai, padedantys kuratoriams visapusiškai atstovauti skaitmeniniams objektams: pavyzdžiui, kokius tezaurus pasirinkti ir kaip tinkamai klasifikuoti elementus.
Tačiau stereotipiniai terminai naudojami tiek artefaktų aprašymuose, tiek LOD sąvokose. Kokį vaidmenį sprendžiant šią problemą atliks nauji pokyčiai LOD srityje? Kaip galime naudoti žinių grafikus, tezaurus ir schemas kurdami įtraukias kultūros paveldo reprezentacijas? LOD tyrėjams ir specialistams šie klausimai vis dar turi būti sprendžiami, o iššūkiai, susiję su sudėtingų, niuansuotų ir ginčijamų kultūros paveldo objektų atstovavimu, gali būti jų varomoji jėga.
Sužinokite daugiau
Sužinokite daugiau apie kultūros DI laboratorijos tyrimus atviros prieigos dokumentuose Ginčytinos terminologijos, skirtos įtraukiam kultūros paveldo atstovavimui, žinių diagrama ir kaip susietuosiuose atviruose duomenyse naudojami ginčytini terminai apie žmones ir kultūras.
Europeanos fondas dalyvauja tokiuose projektuose kaip DE-BIAS, kuriais siekiama kurti žodynus, žinių bazes naudojant susietuosius atviruosius duomenis ir automatinio atpažinimo bei žymėjimo priemones, kurios leidžia Europeanos duomenų bazėje pažymėti ir kontekstualizuoti ginčytinus terminus. Daugiau apie projektą DE-BIAS skaitykite čia.
Šį pranešimą parašė Andrejus Nesterovas, doktorantas Žmogaus orientuotos duomenų analizės grupėje, CWI - Nacionalinis matematikos ir informatikos tyrimų centras Nyderlanduose. Jo mokslinių tyrimų projektas yra Kultūros DI laboratorijos dalis.
