Pouke iz područja umjetne inteligencije i baštine: uključivi metapodaci zahtijevaju više od brisanja stereotipnih pojmova

Objavljeno 16. svibnja 2024. po

Andrei Nesterov (CWI - The National Research Centre for Math and Computer Science in the Netherlands)

Imajte na umu: metapodaci ovog objekta na E__uropeana.eu koriste zastarjeli jezik za opisivanje Roma.

Danas svatko može pregledavati milijune predmeta digitalne kulturne baštine na internetu, a samo Europeana.eu omogućuje pristup više od 50 milijuna predmeta. To je djelomično moguće zahvaljujući povezanim otvorenim podacima ili LOD-u.

Pomoću LOD-a institucije kulturne baštine mogu objavljivati, strukturirati i povezivati svoje zbirke te artefaktima dodati standardiziranije metapodatke. Na primjer, Rijksmuseum povezuje artefakte u svojoj LOD zbirci s Wikidata i Getty Art & Architecture Thesaurus (AAT). Verzija LOD poznate Vermeerove slike „Mliječna sirena” povezana je s pojmom „boje ulja” iz AAT-a.

Iako LOD donosi mnoge koristi, ima i neka ograničenja. Jedan od najvećih problema koje istraživači i praktičari kulturne baštine ističu je kako LOD odražava pristranosti u podacima na kojima se temelji i može izostaviti nijanse i kulturne složenosti. To je posebno vidljivo kada gledamo artefakte s kompliciranom i konfliktnom poviješću: predmeti povezani s kolonijalizmom, povijesno marginaliziranim ljudima i potlačenim zajednicama. U našem istraživanju istražujemo jedan aspekt ovog problema: sporna terminologija.

Sporni pojmovi u popularnim skupovima podataka

Ako nije vjerojatno da će pojam „boja ulja” vrijeđati, priča se razlikuje od rasnih nereda, omalovažavajućih upućivanja na društvene skupine ili zastarjelih kolonijalnih imena. Moglo bi se pomisliti da u široko korištenim skupovima podataka, kao što su Wikipodaci ili AAT, nema pristranih i „loših riječi”. To nije slučaj, kao što je pokazala naša nedavna studija.

Pronašli smo tisuće slučajeva spornih engleskih i nizozemskih pojmova u četiri skupa podataka - Wikidata, AAT i dvije leksičke baze podataka Princeton WordNet i Open Dutch WordNet. Nismo sami smislili popis spornih pojmova, već smo se oslanjali na publikaciju Words Matter iz nizozemskog Nacionalnog muzeja svjetskih kultura, koja objašnjava kulturnu osjetljivost izraza koji se koriste u opisima muzeja.

Gledajući gdje su se točno pojavili sporni pojmovi, otkrili smo da ih Wikidata često koristi u preferiranim naljepnicama. To znači da korisnici vide stereotipne pojmove kao glavna imena stavki u sučeljima. Ostali skupovi podataka spominju sporne pojmove prvenstveno u dužim opisnim poljima.

Uvođenje kolektivnog stručnog znanja

Nakon što smo saznali o razmjeru problema, željeli smo znati kako se praktičari kulturne baštine i programeri LOD-a mogu nositi s tim problemom, a nije bilo bolje prilike nego organizirati radionicu na konferenciji o umjetnoj inteligenciji i baštini u Nizozemskoj.

Zajedno s Laurom Hollink, mojom mentoricom u CWI-ju (nacionalnom istraživačkom institutu za matematiku i računalne znanosti u Nizozemskoj) i koautoricom, odabrali smo slučajeve o kojima će sudionici radionice raspravljati. Radionica je privukla 45 ljudi, a oformili smo osam grupa. Za svaku grupu pripremili smo omotnicu s ispisom koncepta LOD-a ili zapisom s Europeana.eu s spornim uvjetima, stranicu iz Words Matter koja objašnjava zašto je određeni pojam sporan i ljepljive bilješke. Zamolili smo sudionike da predlože kako postići uključiviju zastupljenost koncepta LOD-a ili portala Europeana.eu.

Zamjena sama po sebi nije rješenje

Iako su izneseni mnogi prijedlozi za rješavanje problema, nitko od njih nije rekao da bi samo zamjena spornog termina odgovarajućim sinonimom u potpunosti riješila problem. Osim korištenja sinonima, sudionici su naglasili nužnost uključivanja objašnjenja o spornoj terminologiji u metapodatke - zašto je korištena i zašto je postala neprikladna. U jednoj bilješci navodi se da bi takva objašnjenja i rasprave o spornim uvjetima mogli biti rješenje za pristranosti u metapodacima. U dvama slučajevima Sud je utvrdio bilješke u kojima se navodi da bi trebale postojati informacije iz zajednica koje su pogrešno prikazane u metapodacima.

Sud je odabrao tri slučaja s istim pojmom – Ciganin – kako bi utvrdio kako različite skupine u radionici pristupaju istom pojmu. Dva predmeta s evidencijom Europeana.eu bila su identična: spomenuli su pojam u naslovu, opisu i polju „predmetnih” metapodataka o filmu koji obuhvaća društvene izazove Roma u Londonu. Treći je slučaj bio AAT-ov pojam „ciganski vagoni”. Riječi „bitno” upućuju na upotrebu izraza „Romi” umjesto pogrdne „ciganizacije”. Sve tri skupine složile su se s tim prijedlogom, ali i da neće samo zamijeniti riječ „cigan”.

Jedna je skupina predložila dodavanje više informacija u metapodatke zapisa: da se pojam „ciga” smatra pogrdnim, da se upotrebljavao prije u metapodacima i da su se Romi prethodno nazivali „ciganima”. Druga skupina smatrala je da „se čini lako promijeniti riječ [‚cigan’] u romsku, ali bi li se negativne konotacije u tekstu/kontekstu [u tekstu opisa stavke] ne samo prenijele na pojam ‚rom’?” Još jedna napomena navodi da bi se taj pojam mogao različito percipirati u različitim kulturama: Smatra li se taj pojam svugdje pogrdnim?

Možemo li dizajnirati inkluzivne metapodatke s LOD-om?

Ova pitanja i prijedlozi koje smo prikupili nisu novi. Institucije kulturne baštine, uz vlasnike tesaurija, vokabulara i urednika, traže načine za uključivanje metapodataka. Postoje smjernice i glosari koji pomažu kustosima da predstavljaju digitalne objekte na uključiv način: na primjer, koje tesaurije odabrati i kako na odgovarajući način razvrstati stavke.

Ipak, stereotipni pojmovi koriste se i u opisima artefakata i u konceptima LOD-a. Koju će ulogu u rješavanju tog problema imati nova kretanja u LOD-u? Kako možemo koristiti grafikone znanja, tesaurije i sheme u izgradnji uključivih reprezentacija kulturne baštine? Za istraživače i praktičare LOD-a ta se pitanja tek trebaju riješiti, a izazovi predstavljanja složenih, nijansiranih i osporavanih predmeta kulturne baštine mogu biti njihov pokretač.

Otkrij više

Saznajte više o istraživanju Laboratorija za kulturnu umjetnu inteligenciju u radovima otvorenog pristupa A Knowledge Graph of Contentious Terminology for Inclusive Representation of Cultural Heritage i How Conious Terms About People and Cultures are Used in Linked Open Data (Grafikon znanja o spornoj terminologiji za uključivo predstavljanje kulturne baštine i kako se sporni izrazi o ljudima i kulturama upotrebljavaju u povezanim otvorenim podacima).

Zaklada Europeana sudjeluje u projektima kao što je DE-BIAS čiji je cilj razviti rječnike, baze znanja s pomoću povezanih otvorenih podataka te alate za automatizirano prepoznavanje i označivanje koji omogućuju označavanje i kontekstualizaciju spornih pojmova u bazi podataka Europeane. Više o projektu DE-BIAS pročitajte ovdje.

Ovaj post napisao je Andrei Nesterov, doktorand na Human-Centered Data Analytics grupi, CWI - Nacionalni istraživački centar za matematiku i računalne znanosti u Nizozemskoj. Njegov istraživački projekt dio je Laboratorija za kulturnu umjetnu inteligenciju.