Huomaa: Tämän objektin metatiedoissa E__uropeana.eu-sivustolla käytetään vanhentunutta kieltä romanien kuvaamiseen.
Nykyään kuka tahansa voi selata miljoonia digitaalisia kulttuuriperintökohteita verkossa, ja pelkästään Europeana.eu tarjoaa pääsyn yli 50 miljoonaan esineeseen. Tämä on mahdollista osittain linkitetyn avoimen datan tai LOD: n ansiosta.
LODin avulla kulttuuriperintölaitokset voivat julkaista, jäsentää ja yhdistää kokoelmiaan ja lisätä artefakteihin standardoitua metadataa. Esimerkiksi Rijksmuseum yhdistää LOD-kokoelmansa artefaktit Wikidataan ja Getty Art & Architecture Thesaurukseen (AAT). Kuuluisan Vermeer-maalauksen ”The Milkmaid” LOD-versio liittyy AAT:n öljymaalin käsitteeseen.
Vaikka LOD tuo monia etuja, sillä on myös joitain rajoituksia. Yksi suurimmista ongelmista, joita tutkijat ja kulttuuriperintöalan ammattilaiset korostavat, on se, miten LOD heijastaa vääristymiä datassa, johon se perustuu, ja voi jättää pois vivahteita ja kulttuurisia monimutkaisuuksia. Tämä on erityisen näkyvää, kun tarkastelemme esineitä, joilla on monimutkaisia ja ristiriitaisia historioita: kolonialismiin, historiallisesti syrjäytyneisiin ihmisiin ja sorrettuihin yhteisöihin liittyvät esineet. Tutkimuksessamme tutkimme yhtä tämän ongelman näkökohtaa: kiistanalaista terminologiaa.
Kiistanalaiset termit suosituissa tietoaineistoissa
Jos termi ”öljymaali” ei todennäköisesti loukkaa, tarina on erilainen rotujen, halventavien viittausten sosiaalisiin ryhmiin tai vanhentuneiden siirtomaa-nimien kanssa. Voitaisiin ajatella, että laajalti käytetyt tietoaineistot, kuten Wikidata tai AAT, eivät sisällä puolueellisia ja ”huonoja sanoja”. Näin ei ole, kuten tuore tutkimus osoitti.
Löysimme tuhansia kiistanalaisia englannin ja hollannin termejä neljästä tietoaineistosta - Wikidata, AAT ja kaksi leksikaalista tietokantaa Princeton WordNet ja Open Dutch WordNet. Emme laatineet itse luetteloa kiistanalaisista termeistä, vaan luotimme Alankomaiden maailman kulttuurien kansallismuseon julkaisuun Words Matter, jossa selitetään kulttuurisia herkkyyksiä museoiden kuvauksissa käytettyjen termien takana.
Tarkastellessamme, missä tarkalleen kiistanalaiset termit ilmestyivät, havaitsimme, että Wikidata käyttää niitä usein suosituissa otsikoissa. Tämä tarkoittaa, että käyttäjät näkevät stereotyyppiset termit rajapintojen kohteiden pääniminä. Muut aineistot mainitsevat kiistanalaisia termejä lähinnä pidemmissä kuvailevissa kentissä.
Kollektiivisen asiantuntemuksen tuominen
Kun saimme tietää ongelman laajuudesta, halusimme tietää, miten kulttuuriperinnön harjoittajat ja LOD-kehittäjät voisivat käsitellä sitä, eikä ollut parempaa mahdollisuutta kuin järjestää työpaja tekoälyä ja kulttuuriperintöä käsittelevässä konferenssissa Alankomaissa.
Valitsimme yhdessä CWI:n (Alankomaiden kansallinen matematiikan ja tietojenkäsittelytieteen tutkimuslaitos) esimieheni Laura Hollinkin kanssa tapauksia, joista työpajan osallistujat keskustelivat. Työpajaan osallistui 45 henkilöä ja muodostimme kahdeksan ryhmää. Jokaiselle ryhmälle laadimme kirjekuoren, jossa oli tuloste LOD-konseptista tai Europeana.eu-sivuston tietue, jossa oli kiistanalaisia termejä, Words Matter -sivuston sivu, jossa selitetään, miksi tietty termi on kiistanalainen, ja tahmeita muistiinpanoja. Pyysimme osallistujia ehdottamaan, miten LOD-konseptin tai Europeana.eu-sivuston edustamisesta voitaisiin tehdä osallistavampaa.
Pelkkä korvaaminen ei ole ratkaisu
Vaikka ongelman ratkaisemiseksi tehtiin monia ehdotuksia, kukaan heistä ei sanonut, että vain kiistanalaisen termin korvaaminen asianmukaisella synonyymillä ratkaisisi ongelman kokonaan. Synonyymien käytön lisäksi osallistujat korostivat tarvetta sisällyttää metatietoihin selityksiä kiistanalaisesta terminologiasta - miksi sitä on käytetty ja miksi se on tullut sopimattomaksi. Yksi huomautus ehdotti, että tällaiset selitykset ja keskustelut kiistanalaisista termeistä voisivat olla ratkaisu metatietojen vinoutumiin. Kahdessa tapauksessa tilintarkastustuomioistuin havaitsi muistiinpanoja, joissa todettiin, että metatiedoissa väärin edustettuina olevilta yhteisöiltä olisi saatava tietoa.
Tilintarkastustuomioistuin valitsi kolme tapausta, joissa käytettiin samaa termiä – mustalainen – nähdäkseen, miten työpajan eri ryhmät lähestyvät samaa termiä. Kaksi tapausta, joissa oli Europeana.eu-tietue, olivat identtiset: He mainitsivat termin otsikossa, kuvauksessa ja aiheen metatietokentässä elokuvasta, joka kattaa romanien yhteiskunnalliset haasteet Lontoossa. Kolmas tapaus oli AAT:n käsite ”gypsy wagons”. Words Matter ehdottaa termin ”romani” käyttämistä halventavan termin ”mustalainen” sijaan. Kaikki kolme ryhmää olivat samaa mieltä tästä ehdotuksesta, mutta myös siitä, että ne eivät pelkästään korvaisi sanaa ”mustalainen”.
Yksi ryhmä ehdotti lisätietojen lisäämistä tietueen metatietoihin: että termiä ”gypsy” pidetään halventavana, sitä käytettiin aiemmin metatiedoissa ja että romaneja kutsuttiin aiemmin ”gypsyksi”. Toinen ryhmä pohti, että se ”vaikuttaa helpolta muuttaa sana [”gypsy”] romaniksi, mutta siirtyisivätkö tekstin/kontekstin negatiiviset merkitykset [kohdan kuvaustekstissä] pelkästään termiin ”Roma”?” Eräs lisähuomautus sanoo, että termi voidaan mieltää eri tavoin eri kulttuureissa: Pidetäänkö tätä termiä halventavana kaikkialla?
Voimmeko suunnitella osallistavaa metadataa LOD:n avulla?
Nämä keräämämme kysymykset ja ehdotukset eivät ole uusia. Kulttuuriperintölaitokset ovat tesaurin ja sanaston omistajien ja toimittajien rinnalla etsineet tapoja tehdä metadatasta osallistavaa. On olemassa ohjeita ja sanastoja, jotka auttavat kuraattoreita edustamaan digitaalisia esineitä osallistavasti: esimerkiksi mitä tesaureja valitaan ja miten kohteet luokitellaan asianmukaisesti.
Stereotypioita käytetään kuitenkin sekä artefaktien kuvauksissa että LOD-käsitteissä. Mikä rooli LOD: n uusilla kehityksillä on tämän ratkaisemisessa? Miten voimme käyttää tietokaavioita, tesaureja ja kaavioita kulttuuriperinnön osallistavien esitysten rakentamisessa? LOD-tutkijoiden ja -toimijoiden osalta näihin kysymyksiin on vielä puututtava, ja monimutkaisten, vivahteikkaiden ja kiistanalaisten kulttuuriperintökohteiden esittämiseen liittyvät haasteet voivat olla niiden liikkeellepaneva voima.
Lue lisää
Lue lisää Cultural AI Lab -tutkimuksesta avoimista julkaisuista A Knowledge Graph of Contentious Terminology for Inclusive Representation of Cultural Heritage and How Contentious Terms About People and Cultures are Used in Linked Open Data.
Europeana-säätiö osallistuu DE-BIASin kaltaisiin hankkeisiin, joiden tavoitteena on kehittää sanastoja, tietokantoja, joissa käytetään linkitettyä avointa dataa, sekä automaattisia tunnistus- ja merkintävälineitä, joiden avulla kiistanalaiset termit voidaan merkitä ja kontekstuaalisoida Europeanan tietokantaan. Lue lisää DE-BIAS-hankkeesta täältä.
Tämän viestin on kirjoittanut Andrei Nesterov, PhD-opiskelija Human-Centered Data Analytics -ryhmässä, CWI - Alankomaiden matematiikan ja tietojenkäsittelytieteen kansallinen tutkimuskeskus. Hänen tutkimusprojektinsa on osa Cultural AI Labia.
