Blízke stretnutia s umelou inteligenciou: rozhovor o automatickom sémantickom obohacovaní

Zverejnené 4. júla 2024 od

Eirini Kaldeli (National Technical University of Athens)

Marco Rendina (European Fashion Heritage Association)

Alexandros Chortaras (National Technical University of Athens)

Marco Rendina: Začnime od základov. Čo je sémantické obohatenie?

Eirini Kaldeli: Sémantické obohatenie je proces pridávania novej sémantiky k neštruktúrovaným údajom, ako je voľný text, aby ho stroje mohli pochopiť a vytvoriť s ním prepojenia. V prípade textových metaúdajov, ktoré opisujú položky kultúrneho dedičstva, ich možno analyzovať a rozšíriť kontrolovanými výrazmi z prepojených otvorených dátových súborov alebo slovníkov, ako sú Wikiúdaje alebo Getty Art & tezaurus architektúry (AAT). Tieto pojmy sa bežne označujú ako poznámky a môžu predstavovať pojmy a atribúty (ako napríklad „náklady“ alebo „renesancia“), osoby, miesta, organizácie alebo chronologické obdobia. Napríklad reťazce „Leonardo da Vinci“ a „da Vinci, Leonardo“ môžu byť spojené s položkou Wikidata predstavujúcou taliansky renesančný polymath.

MR: Prečo je dôležité obohatiť metaúdaje o pojmy z prepojených otvorených dátových súborov alebo slovníkov?

EK: Sémantické obohatenie dodáva digitálnym zbierkam zmysel a kontext a robí ich ľahšie rozpoznateľnými. Vzhľadom na jeho význam bol hlavným záujmom a zameraním úsilia iniciatívy Europeana, ako aj jednotlivých agregátorov a poskytovateľov údajov.

Po prvé, prepojené údaje robia textové metaúdaje jednoznačnými. Napríklad reťazec „Leonardo da Vinci“ sa môže v závislosti od kontextu vzťahovať aj na talianske letisko alebo bojovú loď s rovnakým názvom. Každý z týchto pojmov je zastúpený prostredníctvom vyhradeného identifikátora URI (Unique Reference Identifier) z Wikiúdajov, a preto prepojením textu so správnym URI je jasné, na čo sa text vzťahuje.

Po druhé, prepojené údaje nám umožňujú získať ďalšie informácie o určitom subjekte, vytvoriť prepojenia medzi rôznymi zdrojmi a kontextualizovať ich. Umožňuje nám napríklad prepojiť položky označené pojmom „krúžok“ so širším pojmom „šperky“ a prepojiť ich s položkami obohatenými o pojem „bracelet“, ktorý je tiež príkladom „šperky“.

Prepojené údaje sa zvyčajne dodávajú s prekladmi, čím sa zlepšujú možnosti viacjazyčného vyhľadávania. To umožňuje používateľom online archívov prehliadať a vyhľadávať zbierky na tzv. sémantickej vrstve: niekto, kto hľadá „κόσμημα“ (grécke slovo pre „šperky“), bude môcť objaviť predmety opísané ako prstene, ako aj náramky.

MR: Alexandros, obohacujúce metaúdaje si vyžadujú úsilie a zdroje, ktoré inštitúciám správy kultúrneho dedičstva často chýbajú. Ako môžu digitálne technológie pomôcť riešiť túto výzvu?

Alexandros Chortaras: Inštitúcie správy kultúrneho dedičstva môžu využívať najmodernejšie technológie na automatizáciu manuálneho, časovo náročného a často všedného procesu obohacovania metaúdajov. Nástroje na spracovanie v prirodzenom jazyku sa môžu použiť na analýzu textových metaúdajov a zisťovanie a klasifikáciu pomenovaných subjektov, ako sú mená osôb alebo miest, uvedených v neštruktúrovanom texte. Prístupy strojového učenia sa vo veľkej miere používajú na rozlišovanie pomenovaných entít, ktoré je zodpovedné za rozhodovanie, či sa napríklad odkaz na „Leonardo da Vinci“ v texte vzťahuje na taliansky polymath alebo na bojovú loď. V závislosti od vlastností textu, ako je jeho dĺžka a jazyk, slovná zásoba, s ktorou ho chceme prepojiť, a typ subjektov, ktoré chceme odhaliť, je potrebné kombinovať nástroje, ktoré sú najvhodnejšie pre konkrétnu úlohu. Napríklad z našich skúseností s predchádzajúcimi projektmi, ako je CRAFTED, môže byť pre určité úlohy s dobre vymedzeným obmedzeným kontextom vhodnejší aj jednoduchý prístup lemmatizácie a párovania reťazcov ako zložité algoritmy založené na praní špinavých peňazí.

MR: Ale môžem plne dôverovať výsledkom automatického algoritmu? Čo ak robí chyby?

AC: Automatické algoritmy, ktoré analyzujú voľný text na rozpoznávanie a rozlišovanie pomenovaných entít, robia chyby. Presnosť závisí od úlohy a použitého algoritmu. Napríklad krátke textové popisy, ktoré sú bežné v metadátach, nemajú kontext, a preto algoritmy ML vyškolené na článkoch Wikipédie môžu viesť k nesprávnym zhodám.

Navyše, aj keď sú automaticky zistené odkazy správne, môžu sa v určitom kontexte považovať za nežiaduce. Napríklad prepojenie záznamov metaúdajov s výrazmi reprezentujúcimi farby môže byť dôležité pre kolekciu módy, ale môže byť nežiaduce pre opis rukopisu, ktorý náhodou uvádza určitú farbu. Preto je nevyhnutná ľudská kontrola a validácia automatických poznámok. Keďže však často existujú tisíce automatických poznámok, manuálna validácia môže byť veľmi náročný proces na zdroje. Na praktickej úrovni by ľudia mali preskúmať vybranú vzorku poznámok a v závislosti od výsledkov a cieľa rozhodnúť o vhodných kritériách filtrovania.

MR: Posledná otázka pre Eiriniho. Existuje mnoho algoritmov a knižníc, ale zdá sa, že na ich nastavenie sú potrebné značné technické znalosti. Ako AI4Culture pomáha inštitúciám správy kultúrneho dedičstva využívať tieto technológie?

ΕΚ: V súvislosti s projektom AI4Culture pracujeme na platforme s názvom SAGE, ktorú vyvinula Národná technická univerzita v Aténach. SAGE uľahčuje sémantické obohacovanie metaúdajov o kultúrnom dedičstve tým, že ponúka súbor zavedených anotátorov (šablóny obohacovania) nakonfigurovaných tak, aby slúžili potrebám odvetvia. Platforma podporuje celý pracovný postup obohacovania, od importu údajov a automatickej tvorby sémantických poznámok až po validáciu človekom a uverejňovanie údajov vo formáte, ktorý Europeana očakáva. Nástroj bol úspešne použitý na obohatenie metaúdajov o kultúrnom dedičstve v niekoľkých aplikáciách (aj prostredníctvom projektov CRAFTED a Europeana XX). V kontexte AI4Culture bol rozšírený s cieľom zakryť technickú zložitosť algoritmov automatického sémantického obohacovania a podporiť bezproblémovú interoperabilitu so spoločným európskym dátovým priestorom pre kultúrne dedičstvo. Na tento účel platforma podporuje formáty relevantné pre metaúdaje o kultúrnom dedičstve, ako je EDM (Europeana Data Model), a uľahčuje priamy import metaúdajov zo zdrojov súvisiacich s kultúrnym dedičstvom, ako je Europeana.eu alebo nástroj MINT, ktorý používajú viacerí agregátori Europeany.

Zainteresovaní ľudia si zatiaľ môžu vyskúšať SAGE tu. Zdrojový kód je k dispozícii na GitHub (frontend, backend). Môžete sa naučiť, ako používať SAGE po sérii video tutoriálov a čítať pokyny Wiki

Ďalšie informácie

V septembri 2024 sa v rámci projektu AI4Culture spustí platforma, kde sa online sprístupnia otvorené nástroje, ako je nástroj SAGE na sémantické obohacovanie uvedený vyššie, spolu so súvisiacou dokumentáciou a školiacimi materiálmi. Podrobnejšie informácie nájdete na stránke projektu Europeana Pro a pozrite sa na účet LinkedIn a X projektu.