Poučení z „UI a dědictví“: inkluzivní metadata vyžadují více než jen vymazání stereotypních pojmů

Publikováno 16. května 2024 podle

Andrei Nesterov (CWI - The National Research Centre for Math and Computer Science in the Netherlands)

Vezměte prosím na vědomí: metadata tohoto objektu na E__uropeana.eu používají k popisu Romů zastaralý jazyk.

Dnes může každý procházet miliony předmětů digitálního kulturního dědictví online, přičemž Europeana.eu sama poskytuje přístup k více než 50 milionům předmětů. To je možné částečně díky Linked Open Data nebo LOD.

Pomocí LOD mohou instituce kulturního dědictví publikovat, strukturovat a propojovat své sbírky a přidávat k artefaktům standardizovanější metadata. Například Rijksmuseum spojuje artefakty ve své sbírce LOD s Wikidaty a Getty Art & Architecture Thesaurus (AAT). Verze LOD slavného Vermeerova obrazu „The Milkmaid“ je spojena s pojmem „olejová barva“ od společnosti AAT.

Zatímco LOD přináší mnoho výhod, má také určitá omezení. Jedním z největších problémů, které výzkumní pracovníci a odborníci v oblasti kulturního dědictví zdůrazňují, je to, jak LOD odráží předsudky v datech, na nichž je založena, a může vynechat nuance a kulturní složitosti. To je zvláště patrné, když se podíváme na artefakty s komplikovanou a konfliktní historií: objekty související s kolonialismem, historicky marginalizovanými lidmi a utlačovanými komunitami. V našem výzkumu zkoumáme jeden aspekt tohoto problému: Sporná terminologie.

Sporné termíny v populárních datových sadách

Pokud není pravděpodobné, že by výraz „olejová barva“ urazil, příběh se liší rasovými urážkami, hanlivými odkazy na sociální skupiny nebo zastaralými koloniálními názvy. Lze se domnívat, že široce používané datové soubory, jako jsou Wikidata nebo AAT, neobsahují neobjektivní a „špatná slova“. Není tomu tak, jak ukázala naše nedávná studie.

Našli jsme tisíce výskytů sporných anglických a nizozemských termínů ve čtyřech datových sadách - Wikidata, AAT a dvou lexikálních databázích Princeton WordNet a Open Dutch WordNet. Sami jsme nevymysleli seznam sporných termínů, ale spoléhali jsme se na publikaci Words Matter z Nizozemského národního muzea světových kultur, která vysvětluje kulturní citlivost za termíny používanými v popisech muzeí.

Při pohledu na to, kde přesně se objevily sporné pojmy, jsme zjistili, že Wikidata je často používají v preferovaných nálepkách. To znamená, že uživatelé vidí stereotypní pojmy jako hlavní názvy položek v rozhraních. Jiné datové soubory zmiňují sporné pojmy především v delších popisných polích.

Zapojení kolektivních odborných znalostí

Poté, co jsme se dozvěděli o rozsahu problému, chtěli jsme vědět, jak by jej mohli řešit odborníci na kulturní dědictví a vývojáři LOD, a nebyla lepší příležitost než uspořádat workshop na konferenci o umělé inteligenci a dědictví v Nizozemsku.

Spolu s Laurou Hollinkovou, mou nadřízenou na CWI (Národní výzkumný ústav pro matematiku a informatiku v Nizozemsku) a spoluautorkou jsme vybrali případy, které měli účastníci workshopu prodiskutovat. Naše dílna přilákala 45 lidí a vytvořili jsme osm skupin. Pro každou skupinu jsme připravili obálku s výtiskem konceptu LOD nebo záznam z Europeana.eu se spornými termíny, stránku z Words Matter vysvětlující, proč je konkrétní termín sporný, a samolepící poznámky. Požádali jsme účastníky, aby navrhli, jak učinit reprezentaci konceptu LOD nebo záznamu Europeana.eu inkluzivnější.

Nahrazení samo o sobě není řešením

Přestože bylo předloženo mnoho návrhů na řešení tohoto problému, žádný z nich neřekl, že pouhé nahrazení sporného termínu vhodným synonymem by tento problém zcela vyřešilo. Kromě používání synonym účastníci zdůraznili nutnost zahrnout do metadat vysvětlení sporné terminologie - proč byla použita a proč se stala nevhodnou. Jedna poznámka naznačovala, že taková vysvětlení a diskuse o sporných termínech by mohly být řešením zkreslení v metadatech. Ve dvou případech jsme zjistili poznámky uvádějící, že by měly existovat informace od komunit, které jsou v metadatech zkresleny.

Vybrali jsme tři případy se stejným termínem – cikáni – abychom zjistili, jak různé skupiny v rámci workshopu přistupují ke stejnému termínu. Dva případy se záznamem na Europeana.eu byly totožné: zmínili tento termín v názvu, popisu a v poli metadat „předmět“ o filmu, který pojednává o společenských výzvách Romů v Londýně. Třetím případem byl koncept AAT „cikánské vozy“. Words Matter navrhuje použít výraz „Romové“ namísto hanlivého „cikáni“. Všechny tři skupiny souhlasily s tímto návrhem, ale také s tím, že jednoduše nenahradí slovo „cikán“.

Jedna skupina navrhla doplnit do metadat záznamu další informace: že pojem „cikán“ je považován za pejorativní, byl již dříve použit v metadatech a že Romové byli dříve nazýváni „cikány“. Jiná skupina uvedla, že „se zdá snadné změnit slovo [„cikán“] na romštinu, ale nepřenesly by se negativní konotace v textu/kontextu [v popisu položky] pouze na pojem „Romové“?“ Ještě jedna poznámka uvádí, že tento pojem může být v různých kulturách vnímán odlišně: Je tento pojem všude vnímán jako hanlivý?

Můžeme navrhnout inkluzivní metadata s LOD?

Tyto otázky a návrhy, které jsme shromáždili, nejsou nové. Instituce kulturního dědictví spolu s vlastníky a redaktory tezaurů a slovní zásoby hledají způsoby, jak učinit metadata inkluzivními. Existují pokyny a glosáře napsané s cílem pomoci kurátorům reprezentovat digitální objekty inkluzivně: například, které thesauri vybrat a jak klasifikovat položky vhodně.

Stereotypní pojmy se však používají jak v popisech artefaktů, tak v konceptech LOD. Jakou roli bude hrát nový vývoj v LOD při řešení tohoto problému? Jak můžeme využít znalostní grafy, tezaury a schémata při vytváření inkluzivních reprezentací kulturního dědictví? Pro výzkumné pracovníky a odborníky z oblasti LOD je stále třeba tyto otázky řešit a výzvy spojené s reprezentací složitých, diferencovaných a sporných předmětů kulturního dědictví pro ně mohou být hnací silou.

Zjistit více

Další informace o výzkumu laboratoře pro kulturní umělou inteligenci naleznete v dokumentech s otevřeným přístupem A Knowledge Graph of Contentious Terminology for Inclusive Representation of Cultural Heritage (Znalostní graf sporné terminologie pro inkluzivní reprezentaci kulturního dědictví) a How Conious Terms About People and Cultures are used in Linked Open Data (Jak se sporné pojmy o lidech a kulturách používají v propojených otevřených datech).

Nadace Europeana se podílí na projektech, jako je DE-BIAS, jejichž cílem je rozvíjet slovníky, znalostní základny využívající propojená otevřená data a nástroje pro automatizované rozpoznávání a označování, které umožňují označit sporné pojmy v databázi Europeany a uvést je do kontextu. Více informací o projektu DE-BIAS naleznete zde.

Tento příspěvek napsal Andrej Nesterov, PhD-student ve skupině Human-Centered Data Analytics, CWI - Národní výzkumné centrum pro matematiku a informatiku v Nizozemsku. Jeho výzkumný projekt je součástí Cultural AI Lab.