Марко Рендина: Да започнем от основите. Какво представлява семантичното обогатяване?
Ейрини Калдели: Семантичното обогатяване е процес на добавяне на нова семантика към неструктурирани данни, като например свободен текст, така че машините да могат да го осмислят и да изграждат връзки с него. В случай на текстови метаданни, които описват елементи на културното наследство, те могат да бъдат анализирани и допълнени с контролирани термини от свързани отворени набори от данни или речници, като Wikidata или Getty Art & Архитектурен тезаурус (AAT). Тези термини обикновено се наричат анотации и могат да представляват понятия и атрибути (като „Costume“ или „Renaissance“), лица, местоположения, организации или хронологични периоди. Например низовете „Leonardo da Vinci“ и „da Vinci, Leonardo“ могат да бъдат свързани с елемента от Уикиданни, представляващ италианския ренесансов полимат.
МР: Защо е важно да се обогатят метаданните с термини от свързани отворени набори от данни или речници?
ЕК: Семантичното обогатяване добавя смисъл и контекст към цифровите колекции и ги прави по-лесно откриваеми. Като се има предвид нейното значение, тя е основна грижа и акцент на усилията на инициативата Europeana, както и на отделните агрегатори и доставчици на данни.
Първо, свързаните данни правят текстовите метаданни недвусмислени. Например низът „Leonardo da Vinci“ може да се отнася, в зависимост от контекста, и до италианското летище или до линеен кораб със същото име. Всяко от тези понятия е представено чрез специален URI (уникален референтен идентификатор) от Уикиданни и по този начин чрез свързване на текста с правилния URI става ясно за какво се отнася текстът.
Второ, свързаните данни ни позволяват да извлечем допълнителна информация за даден субект, да изградим връзки между различни ресурси и да ги контекстуализираме. Например тя ни позволява да свържем предметите, маркирани с термина „пръстен“, с по-широкото понятие „бижута“ и да ги свържем с предмети, обогатени с термина „гривна“, който също е пример за „бижута“.
И накрая, свързаните данни обикновено идват с преводи, подобрявайки възможностите за многоезично търсене. Това дава възможност на лицата, които използват онлайн хранилища, да разглеждат и търсят колекции на т.нар. „семантичен слой“: някой, който търси „κόσμημα“ (гръцката дума за „бижута“), ще може да открие предмети, описани като пръстени, както и гривни.
МР: Александрос, обогатяването на метаданните изисква усилия и ресурси, които институциите за културно наследство често нямат. Как цифровите технологии могат да помогнат за справяне с това предизвикателство?
Александрос Чортарас: Институциите за културно наследство могат да използват най-съвременни технологии за автоматизиране на ръчния, отнемащ време и често рутинен процес на обогатяване на метаданни. Инструментите за обработка на естествен език могат да се използват за анализ на текстови метаданни и за откриване и класифициране на поименни обекти, като например лица или имена на местоположения, споменати в неструктуриран текст. Подходите за машинно самообучение се използват широко за задачата за пояснение на именуваната единица, която е отговорна за вземането на решение дали например позоваването на „Леонардо да Винчи“ в текста се отнася до италианския полимат или до бойния кораб. В зависимост от характеристиките на текста, като например неговата дължина и език, речника, с който искаме да го свържем, и вида на субектите, които искаме да открием, трябва да комбинираме инструментите, които са най-подходящи за конкретната задача. Например, от опита ни с предишни проекти като CRAFTED, за определени задачи с добре определен ограничен контекст, дори прост подход на лематизация и съвпадение на низове може да бъде по-подходящ от сложните алгоритми, базирани на ML.
МР: Но мога ли да се доверя напълно на резултатите от автоматичен алгоритъм? Ами ако прави грешки?
АС: Всъщност автоматичните алгоритми, които анализират свободния текст за поименно разпознаване и пояснение на субекти, правят грешки. Точността зависи от задачата и използвания алгоритъм. Например, кратките текстови описания, които са често срещани в метаданните, нямат контекст и по този начин алгоритмите за ML, обучени на статии в Уикипедия, могат да доведат до неправилни съвпадения.
Нещо повече, дори ако автоматично откритите връзки са правилни, те могат да се считат за нежелани в определен контекст. Например свързването на записи на метаданни с термини, представляващи цветове, може да е важно за модна колекция, но може да е нежелателно за описване на ръкопис, в който се споменава определен цвят. Следователно проверката от човек и валидирането на автоматичните анотации са абсолютно необходими. Въпреки това, тъй като често има хиляди автоматични анотации, ръчното валидиране може да бъде много ресурсоемък процес. На практическо равнище хората следва да прегледат избрана извадка от анотациите и в зависимост от резултатите и целта да вземат решение относно подходящи критерии за филтриране.
МР: Последен въпрос към Айрини. Има много алгоритми и библиотеки, но изглежда, че са необходими значителни технически познания, за да бъдат създадени. Как AI4Culture помага на институциите за културно наследство да се възползват от тези технологии?
ΕΚ: В контекста на проекта AI4Culture работим по платформа, наречена SAGE, разработена от Националния технически университет в Атина. SAGE улеснява семантичното обогатяване на метаданните за културното наследство, като предлага набор от утвърдени анотатори (шаблони за обогатяване), конфигурирани да обслужват нуждите на сектора. Платформата поддържа целия работен процес по обогатяване — от импортирането на данни и автоматичното изготвяне на семантични анотации до валидирането от човек и публикуването на данни във формата, очакван от Europeana. Инструментът беше успешно използван за обогатяване на метаданните за културното наследство в няколко приложения (включително чрез проектите CRAFTED и Europeana XX). В контекста на AI4Culture той беше разширен, за да се скрие техническата сложност на алгоритмите за автоматично семантично обогатяване и да се подпомогне безпроблемната оперативна съвместимост с общото европейско пространство на данни за културното наследство. За тази цел платформата поддържа формати, свързани с метаданни за културното наследство, като например EDM (модел на данни Europeana), и улеснява прекия внос на метаданни от източници, свързани с културното наследство, като Europeana.eu или инструмента MINT, използван от няколко агрегатори на Europeana.
Засега заинтересованите хора могат да изпробват SAGE тук. Изходният код е достъпен в GitHub (frontend, backend). Можете да научите как да използвате SAGE след поредица от видео уроци и четене на инструкциите на Wiki
Научете повече
През септември 2024 г. проектът AI4Culture ще стартира платформа, в която отворени инструменти, като представения по-горе инструмент SAGE за семантично обогатяване, ще бъдат достъпни онлайн, заедно със съответната документация и обучителни материали. Следете страницата на проекта в Europeana Pro за повече подробности и следете профила на проекта LinkedIn и X!
