Marco Rendina: Začněme od základů. Co je to sémantické obohacení?
Eirini Kaldeliová: Sémantické obohacování je proces přidávání nové sémantiky k nestrukturovaným datům, jako je volný text, aby stroje mohly dávat smysl a budovat spojení s ním. V případě textových metadat, která popisují položky kulturního dědictví, mohou být analyzovány a rozšířeny o kontrolované termíny z propojených otevřených datových souborů nebo slovníků, jako jsou Wikidata nebo Getty Art & Architecture Thesaurus (AAT). Tyto pojmy se běžně označují jako anotace a mohou představovat pojmy a atributy (např. „Kostým“ nebo „Renesance“), osoby, místa, organizace nebo chronologická období. Například řetězce „Leonardo da Vinci“ a „da Vinci, Leonardo“ mohou být spojeny s položkou Wikidat představující italský renesanční polymat.
MR: Proč je důležité obohatit metadata termíny z propojených otevřených datových souborů nebo slovníků?
EK: Sémantické obohacení přidává digitálním sbírkám význam a kontext a usnadňuje jejich objevování. Vzhledem ke svému významu se jedná o hlavní problém a zaměření úsilí iniciativy Europeana, jakož i jednotlivých agregátorů a poskytovatelů údajů.
Za prvé, propojená data činí textová metadata jednoznačnými. Například řetězec „Leonardo da Vinci“ může v závislosti na kontextu odkazovat také na italské letiště nebo bitevní loď se stejným názvem. Každý z těchto konceptů je reprezentován pomocí speciálního URI (Unique Reference Identifier) z Wikidat, a tak propojením textu se správným URI je jasné, k čemu se text vztahuje.
Za druhé, propojená data nám umožňují získat další informace o určitém subjektu, vytvářet spojení mezi různými zdroji a kontextualizovat je. Umožňuje nám například propojit položky označené pojmem „prsten“ s širším pojmem „šperky“ a propojit je s položkami obohacenými pojmem „náramek“, který je rovněž příkladem „šperků“.
V neposlední řadě jsou propojená data obvykle dodávána s překlady, což zlepšuje možnosti vícejazyčného vyhledávání. To umožňuje uživatelům online úložišť procházet a vyhledávat sbírky na tzv. „sémantické vrstvě“: osoba, která hledá „κόσμημα“ (řecké slovo pro „šperky“), bude moci objevit předměty označené jako prsteny i náramky.
MR: Alexandros, obohacování metadat vyžaduje úsilí a zdroje, které institucím kulturního dědictví často chybí. Jak mohou digitální technologie pomoci tuto výzvu řešit?
Alexandros Chortaras: Instituce kulturního dědictví mohou využívat nejmodernější technologie k automatizaci manuálního, časově náročného a často všedního procesu obohacování metadat. Nástroje pro zpracování přirozeného jazyka lze použít k analýze textových metadat a k detekci a klasifikaci pojmenovaných entit, jako jsou osoby nebo jména lokalit, uvedených v nestrukturovaném textu. Přístupy strojového učení se ve velké míře používají k rozlišování pojmenovaných entit, které je odpovědné za rozhodnutí, zda se například odkaz na „Leonardo da Vinci“ v textu vztahuje k italskému polymatu nebo k bitevní lodi. V závislosti na vlastnostech textu, jako je jeho délka a jazyk, slovní zásoba, se kterou jej chceme propojit, a typ entit, které chceme odhalit, je třeba kombinovat nástroje, které jsou nejvhodnější pro konkrétní úkol. Například z našich zkušeností s předchozími projekty, jako je CRAFTED, pro určité úkoly s dobře definovaným omezeným kontextem může být vhodnější i jednoduchý přístup k lemmatizaci a párování řetězců než složité algoritmy založené na ML.
MR: Ale mohu plně důvěřovat výsledkům automatického algoritmu? Co když dělá chyby?
AC: Automatické algoritmy, které analyzují volný text pro rozpoznávání a rozlišování pojmenovaných entit, dělají chyby. Přesnost závisí na daném úkolu a použitém algoritmu. Například krátké textové popisy, které jsou běžné v metadatech, postrádají kontext, a proto algoritmy ML vyškolené na článcích Wikipedie mohou vést k nesprávným shodám.
A co víc, i když jsou automaticky detekované odkazy správné, mohou být v určitém kontextu považovány za nežádoucí. Například propojení metadatových záznamů s termíny reprezentujícími barvy může být důležité pro módní kolekci, ale může být nežádoucí pro popis rukopisu, který náhodou zmiňuje určitou barvu. Lidská kontrola a validace automatických anotací jsou tedy nezbytné. Protože však často existují tisíce automatických anotací, může být manuální validace procesem velmi náročným na zdroje. Na praktické úrovni by lidé měli přezkoumat vybraný vzorek anotací a v závislosti na výsledcích a cíli rozhodnout o vhodných kritériích filtrování.
MR: Poslední otázka pro Eiriniho. Existuje mnoho algoritmů a knihoven, ale zdá se, že k jejich nastavení jsou zapotřebí značné technické znalosti. Jak AI4Culture pomáhá institucím kulturního dědictví využívat těchto technologií?
ΕΚ: V rámci projektu AI4Culture pracujeme na platformě nazvané SAGE, kterou vyvinula Národní technická univerzita v Aténách. SAGE usnadňuje sémantické obohacování metadat kulturního dědictví tím, že nabízí sadu zavedených anotátorů (šablony obohacování) konfigurovaných tak, aby sloužily potřebám odvětví. Platforma podporuje celý pracovní postup obohacování, od importu dat a automatické tvorby sémantických anotací až po validaci člověkem a publikaci dat ve formátu očekávaném Europeanou. Nástroj byl úspěšně použit k obohacení metadat kulturního dědictví v několika aplikacích (mimo jiné prostřednictvím projektů CRAFTED a Europeana XX). V souvislosti s AI4Culture byla rozšířena tak, aby zakrývala technickou složitost algoritmů automatického sémantického obohacování a podporovala bezproblémovou interoperabilitu se společným evropským datovým prostorem pro kulturní dědictví. Za tímto účelem platforma podporuje formáty relevantní pro metadata kulturního dědictví, jako je EDM (datový model Europeany), a usnadňuje přímý dovoz metadat ze zdrojů souvisejících s kulturním dědictvím, jako je Europeana.eu nebo nástroj MINT používaný několika agregátory Europeany.
Prozatím mohou zájemci vyzkoušet SAGE zde. Zdrojový kód je k dispozici na GitHubu (frontend, backend). Můžete se naučit, jak používat SAGE po sérii video tutoriálů a čtení pokynů Wiki
Zjistit více
V září 2024 projekt AI4Culture spustí platformu, kde budou na internetu zpřístupněny otevřené nástroje, jako je výše uvedený nástroj SAGE pro sémantické obohacování, spolu se související dokumentací a školicími materiály. Sledujte stránku projektu na Europeana Pro pro více podrobností a zůstaňte naladěni na projekt LinkedIn a X účet!
