Učne izkušnje z umetno inteligenco in dediščino: Za vključujoče metapodatke je potrebno več kot le brisanje stereotipnih izrazov

Objavljeno 16. maj 2024 po

Andrei Nesterov (CWI - The National Research Centre for Math and Computer Science in the Netherlands)

Prosimo, upoštevajte: metapodatki tega objekta na E__uropeana.eu za opis Romov uporabljajo zastarel jezik.

Danes lahko vsakdo na spletu brska po milijonih predmetov digitalne kulturne dediščine, pri čemer samo Europeana.eu omogoča dostop do več kot 50 milijonov predmetov. To je delno mogoče zahvaljujoč povezanim odprtim podatkom ali LOD.

Ustanove za varstvo kulturne dediščine lahko z uporabo LOD objavijo, strukturirajo in povežejo svoje zbirke ter artefaktom dodajo bolj standardizirane metapodatke. Na primer, Rijksmuseum povezuje artefakte v svoji zbirki LOD z Wikidata in Getty Art & Arhitekturni tezaver (AAT). Različica znamenite Vermeerjeve slike „The Milkmaid“ v LOD je povezana s konceptom „oljne barve“ AAT.

Medtem ko LOD prinaša številne koristi, ima tudi nekaj omejitev. Eden od največjih problemov, ki jih poudarjajo raziskovalci in strokovnjaki za kulturno dediščino, je, kako LOD odraža pristranskost v podatkih, na katerih temelji, in lahko izpusti nianse in kulturne kompleksnosti. To je še posebej vidno, če pogledamo artefakte z zapleteno in konfliktno zgodovino: predmeti, povezani s kolonializmom, zgodovinsko marginaliziranimi ljudmi in zatiranimi skupnostmi. V naši raziskavi raziskujemo en vidik tega problema: sporna terminologija.

Sporni izrazi v priljubljenih naborih podatkov

Če je malo verjetno, da bi bil izraz „naftna barva“ žaljiv, je zgodba drugačna z rasnim blatenjem, žaljivimi sklicevanji na družbene skupine ali zastarelimi kolonialnimi imeni. Lahko bi si mislili, da so široko uporabljani nabori podatkov, kot sta Wikidata ali AAT, brez pristranskih in „slabih besed“. To ni tako, kot je pokazala naša nedavna študija.

Našli smo na tisoče primerov spornih angleških in nizozemskih izrazov v štirih podatkovnih nizih - Wikidata, AAT in dveh leksikalnih podatkovnih zbirkah Princeton WordNet in Open Dutch WordNet. Nismo sestavili seznama spornih izrazov, ampak smo se zanašali na publikacijo Besede so pomembne iz nizozemskega Narodnega muzeja svetovnih kultur, ki pojasnjuje kulturne občutljivosti za izrazi, ki se uporabljajo v opisih muzejev.

Če pogledamo, kje točno so se pojavili sporni izrazi, smo ugotovili, da jih Wikidata pogosto uporablja v prednostnih oznakah. To pomeni, da uporabniki vidijo stereotipne izraze kot glavna imena elementov v vmesnikih. Drugi nabori podatkov omenjajo sporne izraze predvsem v daljših opisnih poljih.

Vključevanje kolektivnega strokovnega znanja

Ko smo izvedeli za obseg problema, smo želeli vedeti, kako bi ga lahko obravnavali strokovnjaki za kulturno dediščino in razvijalci LOD, zato ni bilo boljše priložnosti kot organizirati delavnico na konferenci o umetni inteligenci in dediščini na Nizozemskem.

Skupaj z Lauro Hollink, mojo mentorico na CWI (Nizozemski nacionalni raziskovalni inštitut za matematiko in računalništvo) in soavtorico smo izbrali primere, o katerih so udeleženci delavnice razpravljali. Delavnica je privabila 45 ljudi, oblikovali pa smo osem skupin. Za vsako skupino smo pripravili ovojnico z izpisom koncepta LOD ali zapisom Europeana.eu s spornimi izrazi, stranjo Words Matter, ki pojasnjuje, zakaj je določen izraz sporen, in lepljivimi opombami. Udeležence smo prosili, naj predlagajo, kako bi bila predstavitev koncepta LOD ali zapisa Europeana.eu bolj vključujoča.

Nadomestitev sama po sebi ni rešitev

Čeprav je bilo podanih veliko predlogov za reševanje tega vprašanja, nobeden od njih ni dejal, da bi samo zamenjava spornega izraza z ustreznim sopomenko popolnoma rešila vprašanje. Poleg uporabe sopomenk so udeleženci poudarili potrebo po vključitvi pojasnil o sporni terminologiji v metapodatke - zakaj je bila uporabljena in zakaj je postala neprimerna. V eni od opomb je bilo predlagano, da bi takšne razlage in razprave o spornih izrazih lahko bile rešitev za pristranskost v metapodatkih. Sodišče je v dveh primerih našlo opombe, v katerih je bilo navedeno, da bi morale obstajati informacije iz skupnosti, ki so napačno prikazane v metapodatkih.

Sodišče je izbralo tri primere z enakim izrazom – cigansko, da bi ugotovilo, kako različne skupine na delavnici pristopijo k istemu izrazu. Dva primera z zapisom Europeana.eu sta bila enaka: omenili so izraz v naslovu, opisu in metapodatkovnem polju „predmet“ o filmu, ki zajema družbene izzive Romov v Londonu. Tretji primer je bil pojem AAT „ciganski vagoni“. Besede Matter predlagajo uporabo izraza „Romi“ namesto ponižujočega izraza „cigani“. Vse tri skupine so se strinjale s tem predlogom, vendar tudi s tem, da ne bodo preprosto nadomestile besede „ciganstvo“.

Ena skupina je predlagala, da se metapodatki zapisa dopolnijo z več informacijami: da se izraz „cigani“ šteje za slabšalnega, da je bil uporabljen že prej v metapodatkih in da so se Romi prej imenovali „cigani“. Druga skupina je izrazila mnenje, da „se zdi, da je besedo [‚cigansko‘] enostavno spremeniti v romsko, vendar ali se negativne konotacije v besedilu/kontekstu [v besedilu opisa elementa] ne bi zgolj prenesle na izraz ‚Romi‘?“ Še ena opomba pravi, da bi se lahko izraz v različnih kulturah dojemal različno: Ali se ta izraz povsod obravnava kot ponižujoč?

Ali lahko oblikujemo vključujoče metapodatke z LOD?

Ta vprašanja in predlogi, ki smo jih zbrali, niso novi. Ustanove za varstvo kulturne dediščine skupaj s tezavri ter lastniki in uredniki besedišča iščejo načine za vključitev metapodatkov. Obstajajo smernice in glosarji, ki kuratorjem pomagajo vključujoče predstavljati digitalne predmete: na primer, katere tezavre izbrati in kako ustrezno razvrstiti postavke.

Vendar se stereotipni izrazi uporabljajo v opisih artefaktov in konceptih LOD. Kakšno vlogo bodo pri reševanju tega vprašanja odigrali novi dogodki v LOD? Kako lahko uporabimo grafe znanja, tezavre in sheme pri oblikovanju vključujočih predstavitev kulturne dediščine? Za raziskovalce in izvajalce LOD je treba ta vprašanja še obravnavati, izzivi, povezani z zastopanjem kompleksnih, raznovrstnih in spornih predmetov kulturne dediščine, pa so lahko zanje gonilna sila.

Odkrijte več

Več o raziskavi laboratorija za kulturno umetno inteligenco v dokumentih z odprtim dostopom Graf znanja sporne terminologije za vključujočo zastopanost kulturne dediščine in kako se sporni izrazi o ljudeh in kulturah uporabljajo v povezanih odprtih podatkih.

Fundacija Europeana sodeluje pri projektih, kot je DE-BIAS, katerih cilj je razviti besednjake, baze znanja z uporabo povezanih odprtih podatkov ter orodja za samodejno prepoznavanje in označevanje, ki omogočajo, da se sporni izrazi označijo in kontekstualizirajo v podatkovni zbirki Europeane. Več o projektu DE-BIAS si lahko preberete tukaj.

To delovno mesto je napisal Andrei Nesterov, doktorski študent pri skupini za analizo podatkov, osredotočeno na človeka, CWI - Nacionalni raziskovalni center za matematiko in računalništvo na Nizozemskem. Njegov raziskovalni projekt je del laboratorija za kulturno umetno inteligenco.