Pange tähele: selle objekti metaandmed veebisaidil E_uropeana.eu kasutavad romade kirjeldamiseks vananenud keelt.
Tänapäeval saab igaüks veebis sirvida miljoneid digitaalse kultuuripärandi objekte, kusjuures ainuüksi Europeana.eu pakub juurdepääsu enam kui 50 miljonile objektile. See on võimalik osaliselt tänu lingitud avatud andmetele või LOD-le.
LOD abil saavad kultuuripärandiasutused oma kogusid avaldada, struktureerida ja ühendada ning lisada artefaktidele standardsemaid metaandmeid. Näiteks ühendab Rijksmuseum oma LOD-kogus olevad esemed Wikidata ja Getty Art & i arhitektuuritesaurusega (AAT). Kuulsa Vermeeri maali „Piimaneitsi“ LOD-versioon on seotud AATi mõistega „õlivärv“.
Kuigi LOD toob palju kasu, on sellel ka mõned piirangud. Üks suurimaid probleeme, mida teadlased ja kultuuripärandi praktikud esile tõstavad, on see, kuidas LOD peegeldab selle aluseks olevate andmete kallutatust ning võib jätta välja nüansse ja kultuurilisi keerukusi. See on eriti nähtav, kui vaatame keerukate ja vastuoluliste ajalooga artefakte: kolonialismi, ajalooliselt tõrjutud inimeste ja rõhutud kogukondadega seotud esemed. Oma uurimistöös uurime selle probleemi ühte aspekti: vastuoluline terminoloogia.
Vaidlusalused terminid populaarsetes andmekogumites
Kui mõiste „õlivärv“ ei ole tõenäoliselt solvav, on lugu erinev rassiliste lägadega, halvustavate viidetega sotsiaalsetele rühmadele või aegunud koloniaalnimedega. Võib arvata, et laialdaselt kasutatavad andmekogumid, nagu Wikidata või AAT, on vabad kallutatud ja halbadest sõnadest. See ei ole nii, nagu näitas meie hiljutine uuring.
Leidsime tuhandeid vaidlusi tekitavaid ingliskeelseid ja hollandikeelseid termineid neljas andmekogumis - Wikidata, AAT ja kaks leksikaalset andmebaasi Princeton WordNet ja Open Dutch WordNet. Me ei esitanud ise vaidlusaluste terminite loendit, vaid tuginesime Hollandi maailmakultuuride muuseumi väljaandele Words Matter, mis selgitab muuseumide kirjeldustes kasutatavate terminite kultuurilist tundlikkust.
Vaadates, kus täpselt vastuolulised terminid ilmusid, leidsime, et Wikidata kasutab neid sageli eelistatud siltidel. See tähendab, et kasutajad näevad stereotüüpseid termineid liidestes olevate üksuste peamiste nimedena. Teistes andmekogumites mainitakse vaidlusi tekitavaid termineid peamiselt pikematel kirjeldavatel väljadel.
Kollektiivse asjatundlikkuse kasutamine
Kui saime teada probleemi ulatusest, tahtsime teada, kuidas kultuuripärandi praktikud ja loovisikute arendajad saaksid sellega tegeleda, ning ei olnud paremat võimalust kui korraldada seminar Madalmaades tehisintellekti ja kultuuripärandi konverentsil.
Koos Laura Hollinkiga, minu juhendajaga CWI-s (Madalmaade matemaatika ja infotehnoloogia riiklik uurimisinstituut) ja kaasautor, valisime seminaril osalejatele arutamiseks juhtumid. Meie töötuba meelitas ligi 45 inimest ja moodustasime kaheksa gruppi. Iga rühma jaoks valmistasime ette ümbriku, mis sisaldab LOD-kontseptsiooni väljatrükki või Europeana.eu kirjet vaidlusaluste terminitega, Words Matter'i lehekülge, kus selgitatakse, miks konkreetne termin on vastuoluline, ja kleepmärkmeid. Palusime osalejatel soovitada, kuidas muuta LOD-kontseptsiooni või Europeana.eu rekordi esitamine kaasavamaks.
Ainuüksi asendamine ei ole lahendus
Kuigi probleemi lahendamiseks tehti palju ettepanekuid, ei öelnud ükski neist, et vaid vaidlusaluse termini asendamine sobiva sünonüümiga lahendaks probleemi täielikult. Lisaks sünonüümide kasutamisele rõhutasid osalejad vajadust lisada metaandmetesse selgitused vaieldava terminoloogia kohta - miks seda on kasutatud ja miks see on muutunud sobimatuks. Ühes märkuses soovitati, et sellised selgitused ja arutelud vaidlusaluste terminite üle võiksid olla lahendus metaandmete kallutatusele. Kahel juhul leidsime märkmeid, milles öeldakse, et metaandmetes valesti esitatud kogukondadelt peaks olema teavet.
Valisime välja kolm sama terminiga juhtumit – mustlased –, et näha, kuidas õpikoja eri rühmad lähenevad samale terminile. Kaks Europeana.eu registriga juhtumit olid identsed: nad mainisid mõistet pealkirjas, kirjelduses ja teema metaandmete väljal filmi kohta, mis hõlmab romade ühiskondlikke probleeme Londonis. Kolmas juhtum oli AAT mõiste „mustlasvagunid“. Sõnad Matter soovitavad kasutada halvustava sõna „mustlane“ asemel sõna „roma“. Kõik kolm rühma nõustusid selle ettepanekuga, kuid ka sellega, et nad ei asendaks lihtsalt sõna „mustlane“.
Üks rühm soovitas lisada kirje metaandmetele rohkem teavet: et mõistet „mustlane“ peetakse halvustavaks, seda on metaandmetes varem kasutatud ja romasid on varem nimetatud mustlasteks. Teine rühm märkis, et „näib olevat lihtne muuta sõna [„mustlane“] romadeks, kuid kas negatiivsed konnotatsioonid tekstis/kontekstis [punkti kirjelduse tekstis] ei kanduks üle mitte ainult terminile „roma“?“ Veel üks märkus ütleb, et seda terminit võidakse eri kultuurides erinevalt tajuda: Kas seda mõistet peetakse kõikjal halvustavaks?
Kas me saame luua kaasavad metaandmed koos LOD-ga?
Need küsimused ja ettepanekud, mida me kogusime, ei ole uued. Kultuuripärandiasutused on tesauruste ning sõnavara omanike ja toimetajate kõrval otsinud võimalusi metaandmete kaasavaks muutmiseks. On olemas juhised ja sõnastikud, mis aitavad kuraatoritel digiobjekte kaasavalt esindada: näiteks, millist tesauri valida ja kuidas objekte asjakohaselt liigitada.
Kuid stereotüüpseid termineid kasutatakse nii artefaktide kirjeldustes kui ka LOD-kontseptsioonides. Millist rolli mängivad uued arengud vabadusel, turvalisusel ja õigusel rajaneval alal selle probleemi lahendamisel? Kuidas kasutada teadmiste graafikuid, tesaure ja skeeme kultuuripärandi kaasavate esituste loomisel? LOD-teadlaste ja praktikute jaoks tuleb neid küsimusi veel käsitleda ning keerukate, nüansirikaste ja vaidlustatud kultuuripärandi objektide esindamine võib olla nende jaoks liikumapanev jõud.
Vaata lähemalt
Lisateavet kultuurilise tehisintellekti labori teadusuuringute kohta saab avatud juurdepääsuga dokumentidest „A Knowledge Graph of Contentious Terminology for Inclusive Representation of Cultural Heritage and How Disputeious Terms About People and Cultures are used in Linked Open Data“ (Teadmiste graafik vaidlusi tekitava terminoloogia kohta kultuuripärandi kaasavaks esindamiseks ning selle kohta, kuidas kasutatakse inimeste ja kultuuridega seotud vaidlusi tekitavaid tingimusi seotud avatud andmetes).
Europeana Foundation osaleb sellistes projektides nagu DE-BIAS, mille eesmärk on arendada sõnastikke, teadmusbaase, kasutades lingitud avatud andmeid, ning automaatseid tunnustamis- ja märgistamisvahendeid, mis võimaldavad vastuolulisi termineid Europeana andmebaasis märgistada ja konteksti asetada. Lisateavet projekti DE-BIAS kohta leiate siit.
Selle postituse kirjutas Andrei Nesterov, Madalmaade riikliku matemaatika- ja arvutiteaduse uurimiskeskuse CWI inimkeskse andmeanalüüsi rühma doktorant. Tema uurimisprojekt on osa Cultural AI Lab'ist.
