Uwaga: metadane tego obiektu na E__uropeana.eu używają przestarzałego języka do opisania Romów.
Obecnie każdy może przeglądać w internecie miliony cyfrowych obiektów dziedzictwa kulturowego, a sama strona Europeana.eu zapewnia dostęp do ponad 50 mln obiektów. Jest to możliwe częściowo dzięki Linked Open Data lub LOD.
Korzystając z LOD, instytucje dziedzictwa kulturowego mogą publikować, organizować i łączyć swoje zbiory oraz dodawać bardziej znormalizowane metadane do artefaktów. Na przykład Rijksmuseum łączy artefakty w swojej kolekcji LOD z Wikidata i Tezaurusem Architektury Getty Art & (AAT). Wersja LOD słynnego obrazu Vermeera „The Milkmaid” jest powiązana z koncepcją „farby olejnej” z AAT.
Chociaż LOD przynosi wiele korzyści, ma również pewne ograniczenia. Jednym z największych problemów, na które zwracają uwagę badacze i osoby zajmujące się dziedzictwem kulturowym, jest to, w jaki sposób LOD odzwierciedla uprzedzenia w danych, na których się opiera, i może pomijać niuanse i złożoność kulturową. Jest to szczególnie widoczne, gdy patrzymy na artefakty o skomplikowanych i sprzecznych historiach: obiekty związane z kolonializmem, historycznie zmarginalizowanymi ludźmi i uciskanymi społecznościami. W naszych badaniach badamy jeden aspekt tego problemu: Terminologia kontrowersyjna.
Kontrowersyjne terminy w popularnych zbiorach danych
Jeśli określenie „farba olejna” raczej nie obrazi, historia jest inna w przypadku oszczerstw rasowych, uwłaczających odniesień do grup społecznych lub przestarzałych nazw kolonialnych. Można by pomyśleć, że powszechnie używane zbiory danych, takie jak Wikidane lub AAT, są wolne od stronniczych i „złych słów”. Tak nie jest, jak pokazały nasze ostatnie badania.
Znaleźliśmy tysiące przypadków spornych terminów angielskich i holenderskich w czterech zbiorach danych - Wikidata, AAT i dwóch leksykalnych bazach danych Princeton WordNet i Open Dutch WordNet. Sami nie wymyśliliśmy listy spornych terminów, ale oparliśmy się na publikacji Words Matter z Holenderskiego Narodowego Muzeum Kultur Świata, która wyjaśnia wrażliwość kulturową za terminami używanymi w opisach muzeów.
Patrząc na to, gdzie dokładnie pojawiły się kontrowersyjne terminy, odkryliśmy, że Wikidata często używa ich w preferowanych etykietach. Oznacza to, że użytkownicy postrzegają terminy stereotypowe jako główne nazwy elementów w interfejsach. Inne zbiory danych wymieniają kontrowersyjne terminy przede wszystkim w dłuższych polach opisowych.
Zbiorowa wiedza fachowa
Po zapoznaniu się ze skalą problemu chcieliśmy dowiedzieć się, w jaki sposób praktycy dziedzictwa kulturowego i deweloperzy LOD mogą rozwiązać ten problem, i nie było lepszej okazji niż zorganizowanie warsztatów na konferencji poświęconej sztucznej inteligencji i dziedzictwu w Holandii.
Wraz z Laurą Hollink, moją przełożoną w CWI (krajowym instytucie badawczym matematyki i informatyki w Holandii) i współautorką, wybraliśmy przypadki do omówienia przez uczestników warsztatów. Nasz warsztat przyciągnął 45 osób, a my utworzyliśmy osiem grup. Dla każdej grupy przygotowaliśmy kopertę z wydrukiem koncepcji LOD lub zapis z Europeana.eu z terminami kontrowersyjnymi, stronę z Words Matter wyjaśniającą, dlaczego dany termin jest kontrowersyjny, oraz notatki samoprzylepne. Poprosiliśmy uczestników o zaproponowanie, jak sprawić, by reprezentacja koncepcji LOD lub rekordu Europeana.eu była bardziej inkluzywna.
Samo zastąpienie nie jest rozwiązaniem
Chociaż pojawiło się wiele sugestii, aby rozwiązać ten problem, żadna z nich nie powiedziała, że zastąpienie spornego terminu odpowiednim synonimem całkowicie rozwiąże problem. Oprócz używania synonimów uczestnicy podkreślali konieczność uwzględnienia w metadanych wyjaśnień dotyczących kontrowersyjnej terminologii - dlaczego została ona użyta i dlaczego stała się niewłaściwa. Jedna z notatek sugerowała, że takie wyjaśnienia i dyskusje na temat spornych terminów mogą być rozwiązaniem dla stronniczości w metadanych. W dwóch przypadkach znaleźliśmy notatki mówiące, że powinny istnieć informacje od społeczności, które są błędnie przedstawiane w metadanych.
Trybunał wybrał trzy przypadki o tym samym terminie – cygański – aby sprawdzić, w jaki sposób różne grupy w ramach warsztatów podchodzą do tego samego terminu. Dwa przypadki z rekordem Europeana.eu były identyczne: wspomniały o tym terminie w tytule, opisie i w polu metadanych „przedmiot” dotyczącym filmu przedstawiającego wyzwania społeczne stojące przed ludnością romską w Londynie. Trzeci przypadek dotyczył pojęcia AAT „cygańskie wagony”. Słowa „Materiał” sugerują użycie terminu „Romowie” zamiast uwłaczającego terminu „Cyganie”. Wszystkie trzy grupy zgodziły się z tą sugestią, ale również, że nie zastąpią one po prostu słowa „Cygan”.
Jedna grupa zasugerowała dodanie większej ilości informacji do metadanych rekordu: że termin „cyganie” jest postrzegany jako pejoratywny, był wcześniej używany w metadanych oraz że Romowie byli wcześniej nazywani „cyganami”. Inna grupa stwierdziła, że „łatwo jest zmienić słowo [»Cygan«] na Romów, ale czy negatywne konotacje w tekście/kontekstie [w tekście opisu pozycji] nie tylko przeniosą się na termin »Romowie«?” Jeszcze jedna uwaga mówi, że termin ten może być postrzegany inaczej w różnych kulturach: Czy ten termin jest wszędzie postrzegany jako obraźliwy?
Czy możemy zaprojektować metadane inkluzywne z LOD?
Te pytania i sugestie, które zebraliśmy, nie są nowe. Instytucje dziedzictwa kulturowego, wraz z właścicielami i redaktorami tezaurusów oraz słowników, poszukują sposobów na włączenie metadanych. Istnieją wytyczne i glosariusze napisane, aby pomóc kuratorom reprezentować obiekty cyfrowe w sposób inkluzywny: na przykład, które tezaurusy wybrać i jak odpowiednio klasyfikować przedmioty.
Jednak terminy stereotypowe są używane zarówno w opisach artefaktów, jak i koncepcjach LOD. Jaką rolę w rozwiązaniu tego problemu odegrają nowe zmiany w LOD? W jaki sposób możemy wykorzystać wykresy wiedzy, tezaurusy i schematy w budowaniu inkluzywnych reprezentacji dziedzictwa kulturowego? Dla badaczy i praktyków LOD kwestie te nadal wymagają rozwiązania, a wyzwania związane z reprezentowaniem złożonych, zniuansowanych i kwestionowanych obiektów dziedzictwa kulturowego mogą być dla nich siłą napędową.
Dowiedz się więcej
Dowiedz się więcej o badaniach Cultural AI Lab w ogólnodostępnych artykułach A Knowledge Graph of Contentious Terminology for Inclusive Representation of Cultural Heritage and How Contentious Terms About People and Cultures are Used in Linked Open Data.
Fundacja Europeana uczestniczy w projektach takich jak DE-BIAS, których celem jest rozwój słownictwa, baz wiedzy z wykorzystaniem połączonych otwartych danych oraz zautomatyzowanych narzędzi rozpoznawania i oznaczania, które umożliwiają oznaczanie spornych terminów i ich kontekstualizację w bazie danych Europeany. Więcej informacji na temat projektu DE-BIAS można znaleźć tutaj.
Ten post został napisany przez Andrei Nesterov, doktoranta w Human-Centered Data Analytics Group, CWI - National Research Centre for Math and Computer Science w Holandii. Jego projekt badawczy jest częścią Cultural AI Lab.
