Kérjük, vegye figyelembe: az objektum metaadatai az E__uropeana.eu oldalon elavult nyelvet használnak a romák leírására.
Ma már bárki böngészhet digitális kulturális örökségi tárgyak milliói között az interneten, és az Europeana.eu önmagában több mint 50 millió tárgyhoz biztosít hozzáférést. Ez részben a kapcsolt nyílt adatoknak vagy a LOD-nak köszönhetően lehetséges.
A LOD használatával a kulturális örökséget ápoló intézmények közzétehetik, strukturálhatják és összekapcsolhatják gyűjteményeiket, és szabványosítottabb metaadatokat adhatnak hozzá a műtárgyakhoz. Például a Rijksmuseum összeköti a LOD gyűjteményében található műtárgyakat a Wikidatával és a Getty Art & Architecture Thesaurus-szal (AAT). A híres Vermeer-festmény, a „The Milkmaid” LOD-változata az AAT „olajfesték” fogalmához kapcsolódik.
Bár a LOD számos előnnyel jár, bizonyos korlátai is vannak. Az egyik legnagyobb probléma, amelyet a kutatók és a kulturális örökséggel foglalkozó szakemberek kiemelnek, az, hogy a LOD hogyan tükrözi a torzításokat az adatokban, amelyeken alapul, és kihagyhatja az árnyalatokat és a kulturális összetettségeket. Ez különösen akkor látható, ha bonyolult és ellentmondásos történetekkel rendelkező műtárgyakat vizsgálunk: a gyarmatosításhoz, a történelmileg marginalizált emberekhez és az elnyomott közösségekhez kapcsolódó tárgyak. Kutatásunkban a probléma egyik aspektusát vizsgáljuk: Vitatott terminológia.
Vitatott kifejezések népszerű adatkészletekben
Ha az „olajfesték” kifejezés valószínűleg nem sértő, a történet eltér a faji gyalázkodásoktól, a társadalmi csoportokra való becsmérlő hivatkozásoktól vagy az elavult gyarmati nevektől. Elképzelhető, hogy a széles körben használt adatkészletek, például a Wikidata vagy az AAT elfogult és „rossz szavaktól” mentesek. Nem ez a helyzet, amint azt a legutóbbi tanulmányunk is kimutatta.
Több ezer vitatott angol és holland kifejezést találtunk négy adatkészletben - Wikidata, AAT, és két lexikális adatbázisban Princeton WordNet és Open Dutch WordNet. Mi magunk nem állítottuk össze a vitatott kifejezések listáját, hanem a holland Nemzeti Világkultúrák Múzeumának Words Matter című kiadványára támaszkodtunk, amely megmagyarázza a múzeumi leírásokban használt kifejezések mögötti kulturális érzékenységeket.
Ha megnézzük, hogy pontosan hol jelentek meg a vitatott kifejezések, azt találtuk, hogy a Wikidata gyakran használja őket a preferált címkéken. Ez azt jelenti, hogy a felhasználók a sztereotip kifejezéseket az interfészek elemeinek fő neveként látják. Más adatkészletek elsősorban hosszabb leíró mezőkben említenek vitatott kifejezéseket.
Kollektív szakértelem bevonása
Miután megismertük a probléma nagyságrendjét, tudni akartuk, hogy a kulturális örökséggel foglalkozó szakemberek és a LOD fejlesztők hogyan tudják kezelni azt, és nem volt jobb lehetőség, mint egy workshop szervezése a hollandiai AI és örökségi konferencián.
Laura Hollinkdal, a CWI (Hollandia nemzeti matematikai és számítástechnikai kutatóintézete) felügyelőjével és társszerzőjével közösen kiválasztottuk azokat az eseteket, amelyeket a workshop résztvevői megvitattak. A műhelyünk 45 főt vonzott, és nyolc csoportot alakítottunk. Minden csoport számára készítettünk egy borítékot egy LOD-koncepció kinyomtatásával vagy az Europeana.eu vitatott kifejezéseket tartalmazó rekordjával, a Words Matter egy oldalával, amely elmagyarázza, hogy egy adott kifejezés miért vitatott, és ragacsos jegyzetekkel. Arra kértük a résztvevőket, hogy javasolják, hogyan lehetne inkluzívabbá tenni a LOD koncepció vagy az Europeana.eu rekord megjelenítését.
A helyettesítés önmagában nem megoldás
Bár számos javaslat született a kérdés kezelésére, egyikük sem mondta, hogy a vitatott kifejezés megfelelő szinonimával való helyettesítése teljesen megoldaná a problémát. A szinonimák használata mellett a résztvevők hangsúlyozták, hogy magyarázatot kell adni a vitatott terminológiára a metaadatokban - miért használták és miért nem megfelelő. Az egyik feljegyzés azt javasolta, hogy a vitatott kifejezésekre vonatkozó ilyen magyarázatok és viták megoldást jelenthetnek a metaadatok elfogultságára. Két esetben találtunk olyan feljegyzéseket, amelyek szerint a metaadatokban valótlanul megjelenített közösségektől származó információknak kell rendelkezésre állniuk.
Három, azonos terminusú esetet – cigányt – választottunk ki, hogy megnézzük, a műhelymunka különböző csoportjai hogyan közelítik meg ugyanazt a terminust. Két, Europeana.eu-rekordot tartalmazó ügy azonos volt: megemlítették a kifejezést a címben, a leírásban és a „tárgy” metaadatmezőben egy olyan filmről, amely a londoni romák társadalmi kihívásaival foglalkozik. A harmadik eset az AAT „cigánykocsik” fogalma volt. A Words Matter a „roma” kifejezés használatát javasolja a becsmérlő „cigány” kifejezés helyett. Mindhárom csoport egyetértett ezzel a javaslattal, de azzal is, hogy nem helyettesítik egyszerűen a „cigány” szót.
Az egyik csoport azt javasolta, hogy a rekord metaadatait egészítsék ki további információkkal: a „cigány” kifejezést pejoratívnak tekintik, korábban használták a metaadatokban, és a romákat korábban „cigánynak” nevezték. Egy másik csoport úgy vélte, hogy „Könnyűnek tűnik a [»cigány«] szót romákra változtatni, de a szövegben/kontextusban [a tétel leírásának szövegében] szereplő negatív konnotációk nem csak átkerülnének a »roma« kifejezésre?” Egy további megjegyzés szerint a kifejezést a különböző kultúrákban eltérően érzékelhetik: Ezt a kifejezést mindenhol becsmérlőnek tartják?
Tervezhetünk inkluzív metaadatokat a LOD segítségével?
Ezek a kérdések és javaslatok, amelyeket összegyűjtöttünk, nem újak. A kulturális örökséget ápoló intézmények a tezaurusz- és szókincstulajdonosokkal és -szerkesztőkkel együtt keresik a metaadatok inkluzívvá tételének módjait. Vannak iránymutatások és glosszáriumok, amelyek segítenek a kurátoroknak a digitális objektumok inkluzív megjelenítésében: például, hogy melyik tezauruszt kell kiválasztani, és hogyan kell megfelelően osztályozni a tételeket.
Mégis sztereotip kifejezéseket használnak mind a műtárgyleírásokban, mind a LOD-koncepciókban. Milyen szerepet fognak játszani a LOD új fejleményei ennek megoldásában? Hogyan használhatunk tudásgráfokat, tezauruszokat és sémákat a kulturális örökség inkluzív reprezentációjának építéséhez? A LOD-kutatók és -szakemberek számára ezek a kérdések még megoldásra várnak, és az összetett, árnyalt és vitatott kulturális örökségi tárgyak ábrázolásának kihívásai hajtóerőt jelenthetnek számukra.
Tudjon meg többet
Tudjon meg többet a Cultural AI Lab kutatásáról a nyílt hozzáférésű dokumentumokban A Knowledge Graph of Contentious Terminology for Inclusive Representation of Cultural Heritage and How Contentious Terms About People and Cultures are used in Linked Open Data (A kulturális örökség inkluzív reprezentációjára vonatkozó vitatott terminológia tudásgrafikája, valamint az emberekről és kultúrákról szóló vitatott kifejezések használata a kapcsolt nyílt adatokban).
Az Europeana Alapítvány olyan projektekben vesz részt, mint a DE-BIAS, amelyek célja, hogy a kapcsolt nyílt adatok felhasználásával szókincseket, tudásbázisokat, valamint automatizált felismerési és megjelölési eszközöket fejlesszenek ki, amelyek lehetővé teszik a vitatott kifejezések megjelölését és kontextusba helyezését az Europeana adatbázisában. A DE-BIAS projektről itt olvashat bővebben.
Ezt a bejegyzést Andrei Nesterov, a CWI (The National Research Centre for Math and Computer Science in the Netherlands) emberközpontú adatelemzési csoportjának PhD-hallgatója írta. Kutatási projektje a Cultural AI Lab része.
