Lūdzu, ņemiet vērā: šā objekta metadatos vietnē E__uropeana.eu ir izmantota novecojusi valoda, lai aprakstītu romus.
Mūsdienās ikviens tiešsaistē var pārlūkot miljoniem digitālā kultūras mantojuma objektu, un Europeana.eu viens pats nodrošina piekļuvi vairāk nekā 50 miljoniem objektu. Daļēji tas ir iespējams, pateicoties saistītajiem atvērtajiem datiem vai LOD.
Izmantojot LOD, kultūras mantojuma iestādes var publicēt, strukturēt un savienot savas kolekcijas un artefaktiem pievienot standartizētākus metadatus. Piemēram, Rijksmuseum LOD kolekcijā esošos artefaktus savieno ar Wikidata un Getty Art & Arhitektūras tēzauru (AAT). Slavenās Vermēra gleznas “The Milkmaid” LOD versija ir saistīta ar “eļļas krāsas” jēdzienu no AAT.
Lai gan LOD sniedz daudzas priekšrocības, tai ir arī daži ierobežojumi. Viena no lielākajām problēmām, ko uzsver pētnieki un kultūras mantojuma praktiķi, ir tas, kā LOD atspoguļo neobjektivitāti datos, uz kuriem tā balstās, un var izlaist nianses un kultūras sarežģītību. Tas ir īpaši redzams, ja aplūkojam artefaktus ar sarežģītu un pretrunīgu vēsturi: priekšmeti, kas saistīti ar koloniālismu, vēsturiski marginalizētiem cilvēkiem un apspiestām kopienām. Savā pētījumā mēs pētām vienu šīs problēmas aspektu: strīdīga terminoloģija.
Strīdīgi termini populārās datu kopās
Ja ir maz ticams, ka termins “eļļas krāsa” varētu aizvainot, stāsts atšķiras ar rasu novirzēm, noniecinošām atsaucēm uz sociālajām grupām vai novecojušiem koloniālajiem nosaukumiem. Varētu domāt, ka plaši izmantotās datu kopas, piemēram, Wikidata vai AAT, ir brīvas no neobjektīviem un “sliktiem vārdiem”. Tas tā nav, kā to parādīja mūsu nesenais pētījums.
Mēs atradām tūkstošiem strīdīgu angļu un holandiešu valodas terminu gadījumu četrās datu kopās - Wikidata, AAT un divās leksiskajās datubāzēs Princeton WordNet un Open Dutch WordNet. Mēs paši nenācām klajā ar strīdīgo terminu sarakstu, bet paļāvāmies uz Nīderlandes Nacionālā pasaules kultūru muzeja publikāciju Words Matter, kas izskaidro kultūras jutīgumu aiz muzeju aprakstos izmantotajiem terminiem.
Aplūkojot, kur tieši parādījās strīdīgi termini, mēs konstatējām, ka Wikidata tos bieži izmanto vēlamajos marķējumos. Tas nozīmē, ka lietotāji saskarnēs kā galveno vienumu nosaukumus redz stereotipu terminus. Citās datu kopās strīdīgi termini galvenokārt ir minēti garākos aprakstošos laukos.
Kolektīvās pieredzes izmantošana
Pēc tam, kad uzzinājām par problēmas mērogu, mēs vēlējāmies uzzināt, kā kultūras mantojuma praktiķi un LOD izstrādātāji varētu to risināt, un nebija labākas iespējas kā organizēt darbsemināru konferencē par mākslīgo intelektu un mantojumu Nīderlandē.
Kopā ar Lauru Hollinku, manu CWI (Nīderlandes valsts matemātikas un datorzinātņu pētniecības institūta) vadītāju un līdzautoru, mēs atlasījām gadījumus, kuros semināra dalībniekiem jāapspriežas. Mūsu darbnīca piesaistīja 45 cilvēkus, un mēs izveidojām astoņas grupas. Katrai grupai mēs sagatavojām aploksni ar LOD koncepcijas izdruku vai ierakstu no Europeana.eu ar strīdīgiem terminiem, lapu no Words Matter, kurā paskaidrots, kāpēc konkrēts termins ir strīdīgs, un lipīgas piezīmes. Mēs aicinājām dalībniekus ierosināt, kā LOD koncepcijas vai Europeana.eu ieraksta attēlojumu padarīt iekļaujošāku.
Aizstāšana viena pati nav risinājums
Lai gan tika izteikti daudzi ierosinājumi, lai risinātu šo jautājumu, neviens no viņiem neteica, ka, vienkārši aizstājot strīdīgo terminu ar atbilstošu sinonīmu, problēma tiktu pilnībā atrisināta. Papildus sinonīmu izmantošanai dalībnieki uzsvēra nepieciešamību metadatos iekļaut skaidrojumus par strīdīgu terminoloģiju - kāpēc tā ir izmantota un kāpēc tā ir kļuvusi nepiemērota. Vienā piezīmē bija norādīts, ka šādi paskaidrojumi un diskusijas par strīdīgiem terminiem varētu būt risinājums metadatu neobjektivitātes novēršanai. Divos gadījumos mēs konstatējām piezīmes, kurās teikts, ka vajadzētu būt informācijai no kopienām, kuras metadatos ir sagrozītas.
Mēs atlasījām trīs lietas ar vienu un to pašu terminu – čigānu –, lai redzētu, kā dažādas grupas seminārā izmanto vienu un to pašu terminu. Divas lietas ar Europeana.eu datiem bija identiskas: viņi minēja terminu nosaukumā, aprakstā un “temata” metadatu laukā par filmu, kas aptver romu sociālās problēmas Londonā. Trešais gadījums bija AAT jēdziens “čigānu vagoni”. Vārdi Matter ierosina izmantot terminu “romi”, nevis noniecinošo terminu “čigānisms”. Visas trīs grupas piekrita šim ierosinājumam, bet arī tam, ka tās ne tikai aizstās vārdu “čigāni”.
Viena grupa ierosināja pievienot papildu informāciju ieraksta metadatiem: ka termins “čigāni” tiek uzskatīts par pejoratīvu, tas iepriekš tika izmantots metadatos un ka romi iepriekš tika saukti par “čigāniem”. Cita grupa atspoguļoja, ka tas “viegli maina vārdu [“čigānisms”] uz romiem, bet vai negatīvās konotācijas tekstā/kontekstā [vienuma apraksta tekstā] netiktu pārnestas tikai uz terminu “romi”?” Vēl vienā piezīmē teikts, ka dažādās kultūrās šis termins varētu tikt uztverts atšķirīgi: Vai šis termins tiek uzskatīts par atkāpi visur?
Vai mēs varam izstrādāt iekļaujošus metadatus ar LOD?
Šie jautājumi un ierosinājumi, ko mēs apkopojām, nav jauni. Kultūras mantojuma iestādes kopā ar tēzauru un vārdnīcu īpašniekiem un redaktoriem meklē veidus, kā metadatus padarīt iekļaujošus. Ir izstrādātas vadlīnijas un glosāriji, lai palīdzētu kuratoriem visaptveroši pārstāvēt digitālos objektus: piemēram, kādus tēzaurus izvēlēties un kā pareizi klasificēt priekšmetus.
Tomēr stereotipu termini tiek izmantoti gan artefaktu aprakstos, gan LOD koncepcijās. Kāda loma šā jautājuma risināšanā būs jaunām norisēm LOD jomā? Kā mēs varam izmantot zināšanu diagrammas, tēzaurus un shēmas, veidojot iekļaujošu kultūras mantojuma reprezentāciju? LOD pētniekiem un praktiķiem šie jautājumi vēl ir jārisina, un problēmas, kas saistītas ar sarežģītu, niansētu un apstrīdētu kultūras mantojuma objektu reprezentēšanu, var būt to virzītājspēks.
Uzzināt vairāk
Uzziniet vairāk par kultūras MI laboratorijas pētījumu atvērtās piekļuves dokumentos “A Knowledge Graph of Contentious Terminology for Inclusive Representation of Cultural Heritage and How Contentious Terms About People and Cultures are used in Linked Open Data”.
Europeana fonds piedalās tādos projektos kā DE-BIAS, kuru mērķis ir izstrādāt vārdnīcas, zināšanu bāzes, izmantojot saistītos atvērtos datus, un automatizētus atpazīšanas un iezīmēšanas rīkus, kas ļauj Europeana datubāzē atzīmēt un kontekstualizēt strīdīgos terminus. Vairāk par DE-BIAS projektu lasiet šeit.
Šo rakstu rakstīja Andrei Nesterovs, doktorantūras students no Human-Centered Data Analytics grupas, CWI - Nacionālais matemātikas un datorzinātņu pētniecības centrs Nīderlandē. Viņa pētniecības projekts ir daļa no Cultural AI Lab.
