Marco Rendina: Kezdjük az alapoknál. Mi a szemantikai dúsítás?
Eirini Kaldeli: A szemantikus dúsítás az a folyamat, amely új szemantikát ad hozzá a strukturálatlan adatokhoz, például a szabad szöveghez, hogy a gépek értelmet nyerjenek, és kapcsolatokat építsenek hozzá. A kulturális örökségi tárgyakat leíró szöveges metaadatok esetében ezek elemezhetők és kiegészíthetők ellenőrzött kifejezésekkel a kapcsolt nyílt adatkészletekből vagy szótárakból, például a Wikidatából vagy a Getty Art & Architecture Thesaurus (AAT). Ezeket a kifejezéseket általában annotációknak nevezik, és fogalmakat és attribútumokat (például „Jelmez” vagy „Reneszánsz”), személyeket, helyszíneket, szervezeteket vagy időrendi időszakokat képviselhetnek. Például a „Leonardo da Vinci” és a „da Vinci, Leonardo” karakterláncok összekapcsolhatók az olasz reneszánsz polihisztort reprezentáló Wikidata-tétellel.
MR: Miért fontos, hogy a metaadatokat összekapcsolt nyílt adatkészletekből vagy szótárakból származó kifejezésekkel gazdagítsuk?
EK: A szemantikus gazdagodás értelmet és kontextust ad a digitális gyűjteményeknek, és könnyebben felfedezhetővé teszi őket. Jelentősége miatt az Europeana kezdeményezés, valamint az egyes aggregátorok és adatszolgáltatók erőfeszítéseinek egyik fő kérdése és fókuszpontja volt.
Először is, az összekapcsolt adatok egyértelművé teszik a szöveges metaadatokat. Például a „Leonardo da Vinci” karakterlánc a szövegkörnyezettől függően utalhat az olasz repülőtérre vagy egy azonos nevű csatahajóra is. E fogalmak mindegyikét a Wikidata külön erre a célra létrehozott URI-je (Unique Reference Identifier) képviseli, így a szöveg és a megfelelő URI összekapcsolásával egyértelművé válik, hogy mire utal a szöveg.
Másodszor, az összekapcsolt adatok lehetővé teszik számunkra, hogy további információkat szerezzünk egy bizonyos entitásról, kapcsolatokat építsünk ki a különböző erőforrások között, és kontextualizáljuk őket. Például lehetővé teszi számunkra, hogy a „gyűrű” kifejezéssel jelölt elemeket összekapcsoljuk az „ékszer” tágabb fogalmával, és összekapcsoljuk azokat a „karkötő” kifejezéssel gazdagított elemekkel, ami szintén az „ékszer” példája.
Végül az összekapcsolt adatok általában fordítással járnak, ami javítja a többnyelvű keresés lehetőségeit. Ez lehetővé teszi az online adattárakat használók számára, hogy az úgynevezett „szemantikai rétegben” böngésszenek és keressenek gyűjteményeket: aki a „κόσμημα” (az „ékszer” görög szó) kifejezésre keres rá, az gyűrűként leírt tárgyakat és karkötőket is felfedezhet.
MR: Alexandros, a metaadatok gazdagítása olyan erőfeszítéseket és erőforrásokat igényel, amelyek gyakran hiányoznak a kulturális örökséggel foglalkozó intézményekből. Hogyan segíthetnek a digitális technológiák e kihívás kezelésében?
Alexandros Chortaras (Alexandrosz Hortarász): A kulturális örökséget ápoló intézmények a legkorszerűbb technológiákat használhatják a metaadatok gazdagításának manuális, időigényes és gyakran hétköznapi folyamatának automatizálására. A természetes nyelvfeldolgozó eszközök felhasználhatók szöveges metaadatok elemzésére, valamint a strukturálatlan szövegben említett megnevezett entitások, például személyek vagy helynevek észlelésére és osztályozására. A gépi tanulási megközelítéseket széles körben használják a megnevezett entitások egyértelműsítésének feladatára, amely annak eldöntéséért felelős, hogy például a szövegben a „Leonardo da Vinci”-re való hivatkozás az olasz polihisztorra vagy a csatahajóra utal-e. A szöveg jellemzőitől, például hosszától és nyelvétől, a hozzá kapcsolni kívánt szókincstől és az észlelni kívánt entitások típusától függően kombinálni kell az adott feladathoz leginkább megfelelő eszközöket. Például a korábbi projektekkel, például a CRAFTED-del kapcsolatos tapasztalataink alapján bizonyos, jól meghatározott korlátozott kontextusú feladatok esetében még egy egyszerű lemmatizációs és karakterlánc-illesztési megközelítés is megfelelőbb lehet, mint a komplex ML-alapú algoritmusok.
MR: De teljesen megbízhatok egy automatikus algoritmus eredményeiben? Mi van, ha hibázik?
AC: Valójában az automatikus algoritmusok, amelyek elemzik a szabad szöveget a megnevezett entitás felismeréséhez és egyértelműsítéséhez, hibákat követnek el. A pontosság az adott feladattól és az alkalmazott algoritmustól függ. Például a metaadatokban gyakori rövid szöveges leírások nem rendelkeznek kontextussal, és így a Wikipédia-cikkeken képzett ML-algoritmusok helytelen egyezéseket eredményezhetnek.
Sőt, még ha az automatikusan észlelt linkek helyesek is, bizonyos körülmények között nemkívánatosnak tekinthetők. Például a metaadat-rekordok összekapcsolása a színeket ábrázoló kifejezésekkel fontos lehet egy divatgyűjtemény számára, de nemkívánatos lehet egy olyan kézirat leírása, amely egy bizonyos színt említ. Ezért elengedhetetlen az automatikus annotációk emberi ellenőrzése és validálása. Mivel azonban gyakran több ezer automatikus annotáció létezik, a manuális validálás nagyon erőforrás-igényes folyamat lehet. Gyakorlati szinten az embereknek felül kell vizsgálniuk az annotációk kiválasztott mintáját, és az eredményektől és a célkitűzéstől függően dönteniük kell a megfelelő szűrési kritériumokról.
MR: Egy utolsó kérdés Eirinihez. Számos algoritmus és könyvtár létezik, de úgy tűnik, hogy ezek létrehozásához jelentős technikai ismeretekre van szükség. Hogyan segíti az AI4Culture a kulturális örökséggel foglalkozó intézményeket abban, hogy kihasználják ezeket a technológiákat?
ΕΚ: Az AI4Culture projekt keretében egy SAGE nevű platformon dolgozunk, amelyet az Athéni Nemzeti Műszaki Egyetem fejlesztett ki. A SAGE megkönnyíti a kulturális örökség metaadatainak szemantikai gazdagítását azáltal, hogy az ágazat igényeinek megfelelően kialakított annotátorok (gazdagítási sablonok) készletét kínálja. A platform a teljes dúsítási munkafolyamatot támogatja, az adatimporttól és a szemantikai annotációk automatikus előállításától az emberi validálásig és az Europeana által elvárt formátumban történő adatközlésig. Az eszközt sikeresen használták a kulturális örökség metaadatainak gazdagítására számos alkalmazásban (többek között a CRAFTED és az Europeana XX projekteken keresztül). Az AI4Culture összefüggésében kiterjesztették annak érdekében, hogy elrejtsék az automatikus szemantikai dúsítási algoritmusok technikai összetettségét, és támogassák a kulturális örökség közös európai adatterével való zökkenőmentes interoperabilitást. E célból a platform támogatja a kulturális örökséggel kapcsolatos metaadatokhoz kapcsolódó formátumokat, például az EDM-et (Europeana adatmodell), és megkönnyíti a kulturális örökséggel kapcsolatos forrásokból, például az Europeana.eu-ból vagy az Europeana több aggregátora által használt MINT eszközből származó metaadatok közvetlen behozatalát.
Egyelőre az érdeklődők itt próbálhatják ki a SAGE-t. A forráskód elérhető a GitHub-on (frontend, backend). Megtanulhatod, hogyan kell használni a SAGE-t egy sor videó oktatóanyagot követően, és elolvashatod a Wiki instrukcióit.
Tudjon meg többet
2024 szeptemberében az AI4Culture projekt elindít egy platformot, ahol a nyílt eszközöket – például a fent bemutatott, a szemantikai dúsításra szolgáló SAGE eszközt – a kapcsolódó dokumentációval és képzési anyagokkal együtt online elérhetővé teszik. Tartsa szemmel az Europeana Pro projektoldalát a további részletekért, és tartsa a kapcsolatot a projekt LinkedIn és X fiókjával!
