Poznatky z oblasti „umelá inteligencia a dedičstvo“: inkluzívne metaúdaje si vyžadujú viac než len odstránenie stereotypných pojmov

Zverejnené 16. mája 2024 od

Andrei Nesterov (CWI - The National Research Centre for Math and Computer Science in the Netherlands)

Upozornenie: metaúdaje tohto objektu na stránke E__uropeana.eu používajú na opis Rómov zastaraný jazyk.

V súčasnosti si každý môže prehliadať milióny predmetov digitálneho kultúrneho dedičstva online, pričom len Europeana.eu poskytuje prístup k viac ako 50 miliónom predmetov. Čiastočne je to možné vďaka prepojeným otvoreným dátam alebo LOD.

Pomocou LOD môžu inštitúcie správy kultúrneho dedičstva publikovať, štruktúrovať a prepájať svoje zbierky a pridávať k artefaktom štandardizovanejšie metaúdaje. Napríklad Rijksmuseum spája artefakty vo svojej LOD zbierke s Wikidata a Getty Art & Architecture Thesaurus (AAT). Verzia LOD slávnej Vermeerovej maľby „Mliečna panna“ je spojená s pojmom „olejová farba“ od AAT.

Aj keď LOD prináša mnoho výhod, má aj určité obmedzenia. Jedným z najväčších problémov, ktoré výskumníci a odborníci na kultúrne dedičstvo zdôrazňujú, je to, ako LOD odráža zaujatosť v údajoch, na ktorých je založené, a môže vynechať nuansy a kultúrne zložitosti. Toto je obzvlášť viditeľné, keď sa pozrieme na artefakty s komplikovanou a konfliktnou históriou: predmety súvisiace s kolonializmom, historicky marginalizovanými ľuďmi a utláčanými komunitami. V našom výskume skúmame jeden aspekt tohto problému: sporná terminológia.

Sporné pojmy v populárnych súboroch údajov

Ak je nepravdepodobné, že by pojem „olejová farba“ urazil, príbeh sa líši od rasových škriepok, hanlivých odkazov na sociálne skupiny alebo zastaraných koloniálnych mien. Možno si myslieť, že široko používané súbory údajov, ako sú Wikiúdaje alebo AAT, neobsahujú zaujaté a „zlé slová“. Ako ukázala naša nedávna štúdia, nie je to tak.

Našli sme tisíce výskytov sporných anglických a holandských termínov v štyroch dátových súboroch - Wikidata, AAT a dvoch lexikálnych databázach Princeton WordNet a Open Dutch WordNet. Neprišli sme so zoznamom sporných pojmov sami, ale spoliehali sme sa na publikáciu Words Matter z Holandského národného múzea svetových kultúr, ktorá vysvetľuje kultúrne citlivosti za pojmami používanými v opisoch múzeí.

Pri pohľade na to, kde presne sa objavili sporné výrazy, sme zistili, že Wikiúdaje ich často používajú v preferovaných menovkách. To znamená, že používatelia vidia stereotypné pojmy ako hlavné názvy položiek v rozhraniach. V iných súboroch údajov sa sporné pojmy uvádzajú predovšetkým v dlhších opisných poliach.

Využívanie kolektívnych odborných znalostí

Keď sme sa dozvedeli o rozsahu problému, chceli sme vedieť, ako by ho mohli riešiť odborníci v oblasti kultúrneho dedičstva a vývojári LOD, a nebola lepšia príležitosť ako zorganizovať seminár na konferencii o umelej inteligencii a dedičstve v Holandsku.

Spolu s Laurou Hollinkovou, mojou vedúcou v CWI (Národný výskumný ústav pre matematiku a informatiku v Holandsku) a spoluautorkou sme vybrali prípady, o ktorých mali účastníci workshopu diskutovať. Náš workshop prilákal 45 ľudí a vytvorili sme osem skupín. Pre každú skupinu sme pripravili obálku s výtlačkom konceptu LOD alebo záznam z Europeana.eu so spornými výrazmi, stránku z Words Matter vysvetľujúcu, prečo je konkrétny výraz sporný, a samolepiace poznámky. Požiadali sme účastníkov, aby navrhli, ako zvýšiť inkluzívnosť reprezentácie koncepcie LOD alebo záznamu Europeana.eu.

Samotná výmena nie je riešením

Hoci bolo predložených mnoho návrhov na riešenie tohto problému, žiadny z nich nepovedal, že nahradenie sporného termínu vhodným synonymom by problém úplne vyriešilo. Okrem použitia synoným účastníci zdôraznili potrebu zahrnúť do metaúdajov vysvetlenia spornej terminológie - prečo bola použitá a prečo sa stala nevhodnou. Jedna poznámka naznačila, že takéto vysvetlenia a diskusie o sporných pojmoch by mohli byť riešením zaujatosti v metaúdajoch. V dvoch prípadoch sme našli poznámky, v ktorých sa uvádza, že by mali existovať informácie od komunít, ktoré sú skreslené v metaúdajoch.

Vybrali sme tri prípady s rovnakým termínom – cigáni – aby sme zistili, ako rôzne skupiny v seminári pristupujú k rovnakému termínu. Dva prípady s záznamom Europeana.eu boli totožné: spomenuli tento pojem v názve, opise a poli metaúdajov „predmet“ o filme týkajúcom sa spoločenských výziev Rómov v Londýne. Tretím prípadom bol koncept AAT „cigánske vozne“. Slová, na ktorých záleží, naznačujú používanie pojmu „Rómovia“ namiesto hanlivého pojmu „cigáni“. Všetky tri skupiny súhlasili s týmto návrhom, ale aj s tým, že slovo „cigán“ jednoducho nenahradia.

Jedna skupina navrhla doplniť do metaúdajov záznamu ďalšie informácie: že pojem „cigán“ sa považuje za pejoratívny, predtým sa používal v metaúdajoch a že Rómovia sa predtým nazývali „cigánmi“. Ďalšia skupina uviedla, že „sa zdá byť ľahké zmeniť slovo [‚cigán‘] na Rómov, ale preniesli by sa negatívne konotácie v texte/kontexte [v texte opisu položky] nielen na pojem ‚Róm‘?“ Ďalšia poznámka uvádza, že tento pojem by sa mohol v rôznych kultúrach vnímať odlišne: Je tento pojem všade vnímaný ako hanlivý?

Môžeme navrhnúť inkluzívne metadáta s LOD?

Tieto otázky a návrhy, ktoré sme zhromaždili, nie sú nové. Inštitúcie správy kultúrneho dedičstva spolu s tezaurmi a vlastníkmi a redaktormi slovnej zásoby hľadajú spôsoby, ako dosiahnuť, aby boli metaúdaje inkluzívne. Existujú usmernenia a glosáre napísané s cieľom pomôcť kurátorom reprezentovať digitálne objekty inkluzívne: napríklad, ktoré tezaury si vybrať a ako vhodne klasifikovať položky.

Stereotypné pojmy sa však používajú v opisoch artefaktov aj v pojmoch LOD. Akú úlohu bude zohrávať nový vývoj v oblasti LOD pri riešení tohto problému? Ako môžeme používať vedomostné grafy, tezaury a schémy pri budovaní inkluzívnych reprezentácií kultúrneho dedičstva? Pre výskumníkov a odborníkov z praxe v oblasti LOD je ešte potrebné riešiť tieto otázky a hnacou silou pre nich môžu byť výzvy spojené s reprezentáciou zložitých, diferencovaných a sporných predmetov kultúrneho dedičstva.

Zistiť viac

Viac informácií o výskume v laboratóriu Cultural AI Lab nájdete v publikáciách s otvoreným prístupom A Knowledge Graph of Contentious Terminology for Inclusive Representation of Cultural Heritage a How Contentious Terms About People and Cultures are Used in Linked Open Data.

Nadácia Europeana sa zúčastňuje na projektoch, ako je DE-BIAS, ktorých cieľom je vytvoriť slovníky, vedomostné základne využívajúce prepojené otvorené údaje a automatizované nástroje na rozpoznávanie a označovanie, ktoré umožňujú označovanie sporných pojmov a ich kontextualizáciu v databáze Europeany. Viac informácií o projekte DE-BIAS nájdete tu.

Tento príspevok napísal Andrej Nesterov, PhD-študent v skupine Data Analytics zameranej na človeka, CWI - Národné výskumné centrum pre matematiku a počítačové vedy v Holandsku. Jeho výskumný projekt je súčasťou Cultural AI Lab.