Извлечени поуки от „ИИ и наследството“: приобщаващите метаданни изискват повече от изтриване на стереотипни термини

Публикувано на 16 май 2024 г. от

Andrei Nesterov (CWI - The National Research Centre for Math and Computer Science in the Netherlands)

Моля, имайте предвид, че: метаданните на този обект в E__uropeana.eu използват остарял език, за да опишат ромите.

Днес всеки може да разглежда милиони цифрови обекти на културното наследство онлайн, като само Europeana.eu предоставя достъп до повече от 50 милиона обекта. Това е възможно отчасти благодарение на свързаните отворени данни или LOD.

Използвайки LOD, институциите за културно наследство могат да публикуват, структурират и свързват своите колекции и да добавят повече стандартизирани метаданни към артефактите. Например, Rijksmuseum свързва артефакти в своята колекция LOD с Wikidata и Getty Art & Архитектурен тезаурус (AAT). Версията LOD на известната картина на Вермеер „The Milkmaid“ е свързана с понятието „маслена боя“ от AAT.

Докато LOD носи много ползи, тя също има някои ограничения. Един от най-големите проблеми, които изследователите и практикуващите в областта на културното наследство подчертават, е как LOD отразява предубежденията в данните, на които се основава, и може да пропусне нюанси и културни сложности. Това е особено видимо, когато разглеждаме артефакти със сложна и противоречива история: обекти, свързани с колониализма, исторически маргинализирани хора и потиснати общности. В нашето изследване ние изследваме един аспект на този проблем: Спорна терминология.

Спорни термини в популярни набори от данни

Ако е малко вероятно терминът „маслена боя“ да обиди, историята е различна с расови обиди, пренебрежителни препратки към социални групи или остарели колониални имена. Може да се помисли, че широко използваните набори от данни, като например Wikidata или AAT, не съдържат пристрастни и „лоши думи“. Това не е така, както показа неотдавнашното ни проучване.

Открихме хиляди случаи на спорни английски и холандски термини в четири набора от данни - Wikidata, AAT и две лексикални бази данни Princeton WordNet и Open Dutch WordNet. Ние не съставихме списък със спорни термини, а разчитахме на публикацията Words Matter от Холандския национален музей на световните култури, която обяснява културната чувствителност зад термините, използвани в музейните описания.

Разглеждайки къде точно се появиха спорните термини, открихме, че Уикиданни ги използва често в предпочитани етикети. Това означава, че потребителите виждат стереотипните термини като основни имена на елементи в интерфейсите. Други набори от данни споменават спорни термини предимно в по-дълги описателни полета.

Привличане на колективен експертен опит

След като научихме за мащаба на проблема, искахме да знаем как специалистите в областта на културното наследство и разработчиците на LOD могат да се справят с него и нямаше по-добра възможност от организирането на семинар на конференцията за ИИ и наследството в Нидерландия.

Заедно с Лора Холинк, моя ръководител в CWI (Националния изследователски институт по математика и компютърни науки в Холандия) и съавтор, избрахме случаи за участниците в семинара, които да обсъдят. Уъркшопът ни привлече 45 души и сформирахме осем групи. За всяка група подготвихме плик с разпечатка на концепция LOD или запис от Europeana.eu със спорни термини, страница от Words Matter, обясняваща защо даден термин е спорен, и лепкави бележки. Помолихме участниците да предложат как представянето на концепцията за LOD или Europeana.eu да стане по-приобщаващо.

Замяната сама по себе си не е решение.

Въпреки че бяха направени много предложения за справяне с проблема, нито едно от тях не каза, че замяната на спорен термин с подходящ синоним ще реши проблема напълно. Освен използването на синоними, участниците подчертаха необходимостта от включване на обяснения за спорната терминология в метаданните - защо е била използвана и защо е станала неподходяща. Една бележка предполага, че подобни обяснения и дискусии относно спорни термини биха могли да бъдат решение на предубежденията в метаданните. В два случая Сметната палата откри бележки, в които се казва, че трябва да има информация от общностите, които са погрешно представени в метаданните.

Избрахме три случая с един и същ термин — цигански — за да видим как различните групи в семинара подхождат към един и същ термин. Два случая с запис в Europeana.eu бяха идентични: те споменаха термина в заглавието, описанието и полето за „предметни“ метаданни за филм, обхващащ обществените предизвикателства пред ромите в Лондон. Третият случай е концепцията AAT „цигански вагони“. Words Matter предлага да се използва терминът „роми“ вместо пренебрежителното „циганин“. И трите групи се съгласиха с това предложение, но и че няма просто да заменят думата „циганин“.

Една група предложи да се добави повече информация към метаданните на записа: че терминът „циганин“ се разглежда като пейоративен, че е бил използван и преди в метаданните и че ромите преди това са били наричани „циганин“. Друга група изрази мнение, че „Смята, че е лесно да се промени думата [„циганин“] на роми, но дали отрицателните конотации в текста/контекста [в описателния текст на артикула] няма просто да се прехвърлят към термина „роми“?“ В още една бележка се казва, че терминът може да се възприема по различен начин в различните култури: Навсякъде ли този термин се възприема като пренебрежителен?

Можем ли да проектираме приобщаващи метаданни с LOD?

Тези въпроси и предложения, които събрахме, не са нови. Институциите за културно наследство, заедно със собствениците и редакторите на тезаури и речници, търсят начини да направят метаданните приобщаващи. Написани са насоки и речници, за да се помогне на куратори да представят цифровите обекти по приобщаващ начин: например кои тезаури да изберат и как да класифицират позициите по подходящ начин.

И все пак стереотипни термини се използват както в описанията на артефакти, така и в концепциите за LOD. Каква роля ще играят новите развития в LOD за решаването на този проблем? Как можем да използваме графики на знанието, тезаури и схеми при изграждането на приобщаващи представяния на културното наследство? За изследователите и специалистите в областта на LOD тези въпроси все още не са решени и предизвикателствата, свързани с представянето на сложни, нюансирани и оспорвани обекти на културното наследство, могат да бъдат движеща сила за тях.

Научете повече

Научете повече за изследването на Cultural AI Lab в документите със свободен достъп A Knowledge Graph of Conclusive Terminology for Inclusive Representation of Cultural Heritage and How Consolious Terms About People and Cultures are Used in Linked Open Data (Графика на знанието за спорна терминология за приобщаващо представяне на културното наследство и за това как в свързаните отворени данни се използват спорни термини за хората и културите).

Фондация Europeana участва в проекти като DE-BIAS, които имат за цел да разработят речници, бази от знания, използващи свързани отворени данни, и инструменти за автоматизирано разпознаване и сигнализиране, които позволяват спорни термини да бъдат маркирани и контекстуализирани в базата данни на Europeana. Прочетете повече за проекта DE-BIAS тук.

Тази публикация е написана от Андрей Нестеров, докторант в Human-Centered Data Analytics group, CWI - The National Research Centre for Math and Computer Science in the Netherlands. Изследователският му проект е част от Cultural AI Lab.