Marco Rendina: Ejja nibdew mill-punti bażiċi. X’inhu l-arrikkiment semantiku?
Eirini Kaldeli: L-arrikkiment semantiku huwa l-proċess taż-żieda ta’ semantika ġdida ma’ data mhux strutturata, bħal test liberu, sabiex il-magni jkunu jistgħu jagħmlu sens minnha u jibnu konnessjonijiet magħha. Fil-każ ta’ metadata testwali li tiddeskrivi oġġetti ta’ wirt kulturali, dawn jistgħu jiġu analizzati u miżjuda b’termini kkontrollati minn settijiet ta’ data Miftuħa Konnessi jew vokabularji, bħal Wikidata jew Getty Art & Architecture Thesaurus (AAT). Dawn it-termini huma komunement imsejħa annotazzjonijiet u jistgħu jirrappreżentaw kunċetti u attributi (bħal “Costume” jew “Rinaxximent”), persuni, postijiet, organizzazzjonijiet jew perjodi kronoloġiċi. Pereżempju, il-kordi “Leonardo da Vinci” u “da Vinci, Leonardo” jistgħu t-tnejn ikunu marbuta mal-oġġett tal-Wikidata li jirrappreżenta l-polimat tar-Rinaxximent Taljan.
MR: Għaliex huwa importanti li l-metadata tiġi arrikkita b’termini minn settijiet tad-data Miftuħa Konnessi jew vokabularji?
EK: L-arrikkiment semantiku jżid it-tifsira u l-kuntest mal-kollezzjonijiet diġitali u jagħmilhom aktar faċli biex jiġu skoperti. Minħabba l-importanza tagħha, kienet ta’ tħassib ewlieni u fokus tal-isforzi mill-Inizjattiva Europeana kif ukoll minn aggregaturi individwali u fornituri tad-data.
L-ewwel nett, id-data llinkjata tagħmel il-metadata testwali mhux ambigwa. Pereżempju, is-sekwenza “Leonardo da Vinci” tista’ tirreferi wkoll, skont il-kuntest, għall-ajruport Taljan jew għal battalja bl-istess isem. Kull wieħed minn dawn il-kunċetti huwa rrappreżentat permezz ta’ URI (Identifikatur Uniku ta’ Referenza) dedikat mill-Wikidata, u, għalhekk, billi t-test jiġi marbut mal-URI korrett, isir ċar għal xiex jirreferi t-test.
It-tieni nett, id-data llinkjata tippermettilna niksbu informazzjoni addizzjonali dwar ċerta entità, nibnu konnessjonijiet bejn riżorsi differenti u nikkuntestwalizzawhom. Pereżempju, dan jippermettilna ngħaqqdu l-oġġetti mmarkati bit-terminu “ċirku” mal-kunċett usa’ ta’ “ġojjellerija” u ngħaqqduhom ma’ oġġetti arrikkiti bit-terminu “bracelet”, li huwa wkoll każ ta’ “ġojjellerija”.
Fl-aħħar nett, id-data llinkjata normalment tiġi mat-traduzzjonijiet, u b’hekk jittejbu l-kapaċitajiet għat-tiftix multilingwi. Dan jippermetti lil dawk li jużaw repożitorji online biex jibbrawżjaw u jfittxu ġabriet fl-hekk imsejjaħ “saff semantiku”: xi ħadd li jfittex “κόσμημα” (il-kelma Griega għal “ġojjellerija”) se jkun jista’ jiskopri oġġetti deskritti bħala ċrieki kif ukoll brazzuletti.
MR: Alexandros, li tarrikkixxi l-metadata teħtieġ sforz u riżorsi li l-istituzzjonijiet tal-wirt kulturali spiss ma jkollhomx. It-teknoloġiji diġitali kif jistgħu jgħinu biex tiġi indirizzata din l-isfida?
Alexandros Chortaras: L-istituzzjonijiet tal-wirt kulturali jistgħu jużaw teknoloġiji tal-ogħla livell ta’ żvilupp tekniku biex jawtomatizzaw il-proċess manwali, li jieħu ħafna ħin, u spiss mundane tal-arrikkiment tal-metadata. L-għodod għall-ipproċessar tal-lingwi naturali jistgħu jintużaw biex tiġi analizzata l-metadata testwali u biex jiġu identifikati u kklassifikati entitajiet imsemmija, bħal persuni jew ismijiet ta’ lokalizzazzjoni, imsemmija f’test mhux strutturat. L-approċċi tat-tagħlim awtomatiku jintużaw b’mod estensiv għall-kompitu tad-diżambigwazzjoni tal-entità msemmija, li hija responsabbli biex tiddeċiedi jekk, pereżempju, ir-referenza għal “Leonardo da Vinci” fit-test tirreferix għall-polimat Taljan jew għall-battalja. Skont il-karatteristiċi tat-test, bħat-tul u l-lingwa tiegħu, il-vokabularju li nixtiequ ngħaqqduh miegħu, u t-tip ta’ entitajiet li nixtiequ nidentifikaw, wieħed irid jgħaqqad l-għodod li huma l-aktar xierqa għall-kompitu speċifiku. Pereżempju, mill-esperjenza tagħna bi proġetti preċedenti bħal CRAFTED, għal ċerti kompiti b’kuntest ristrett definit sew, anke approċċ sempliċi ta’ lemmatizzazzjoni u tqabbil tal-istrings jista’ jkun aktar xieraq minn algoritmi kumplessi bbażati fuq l-ML.
MR: Imma nista' nafda bis-sħiħ ir-riżultati ta' algoritmu awtomatiku? X'jiġri jekk jiżbalja?
AC: Tabilħaqq, l-algoritmi awtomatiċi li janalizzaw test liberu għar-rikonoxximent u d-diżambigwazzjoni tal-entità msemmija jagħmlu żbalji. Il-preċiżjoni tiddependi fuq il-kompitu inkwistjoni u l-algoritmu applikat. Pereżempju, deskrizzjonijiet testwali qosra li huma komuni fil-metadata m'għandhomx kuntest u għalhekk l-algoritmi ML imħarrġa fuq l-artikli tal-Wikipedija jistgħu jirriżultaw f'konkordanzi żbaljati.
Barra minn hekk, anki jekk il-links identifikati awtomatikament huma korretti, dawn jistgħu jitqiesu bħala mhux mixtieqa f’ċertu kuntest. Pereżempju, il-konnessjoni tar-rekords tal-metadata ma’ termini li jirrappreżentaw il-kuluri tista’ tkun importanti għal kollezzjoni tal-moda, iżda jista’ ma jkunx mixtieq li jiġi deskritt manuskritt li jseħħ biex jissemma ċertu kulur. Għalhekk, l-ispezzjoni umana u l-validazzjoni tal-annotazzjonijiet awtomatiċi huma indispensabbli. Madankollu, peress li spiss ikun hemm eluf ta’ annotazzjonijiet awtomatiċi, il-validazzjoni manwali tista’ tkun proċess li juża ħafna riżorsi. Fuq livell prattiku, il-bnedmin għandhom jirrevedu kampjun magħżul tal-annotazzjonijiet u, skont ir-riżultati u l-objettiv, jiddeċiedu dwar kriterji xierqa ta’ filtrazzjoni.
MR: Mistoqsija finali għal Eirini. Hemm ħafna algoritmi u libreriji hemmhekk, iżda jidher li huwa meħtieġ għarfien tekniku konsiderevoli biex jiġu stabbiliti. L-AI4Culture kif tgħin lill-istituzzjonijiet tal-wirt kulturali jieħdu vantaġġ minn dawk it-teknoloġiji?
ΕΚ: Fil-kuntest tal-proġett AI4Culture, qed naħdmu fuq pjattaforma, imsejħa SAGE, żviluppata mill-Università Teknika Nazzjonali ta’ Ateni. SAGE tiffaċilita l-arrikkiment semantiku tal-metadata tal-wirt kulturali billi toffri sett ta’ annotaturi stabbiliti (mudelli ta’ arrikkiment) konfigurati biex jaqdu l-ħtiġijiet tas-settur. Il-pjattaforma tappoġġa l-fluss tax-xogħol kollu tal-arrikkiment, mill-importazzjoni tad-data u l-produzzjoni awtomatika tal-annotazzjonijiet semantiċi sal-validazzjoni umana u l-pubblikazzjoni tad-data fil-format mistenni mill-Europeana. L-għodda ntużat b’suċċess biex tarrikkixxi l-metadata tal-wirt kulturali f’diversi applikazzjonijiet (inkluż permezz tal-proġetti CRAFTED u Europeana XX). Fil-kuntest tal-AI4Culture, din ġiet estiża biex taħbi l-kumplessità teknika tal-algoritmi ta’ arrikkiment semantiku awtomatiku u biex tappoġġa l-interoperabbiltà bla xkiel mal-ispazju komuni Ewropew tad-data għall-wirt kulturali. Għal dan il-għan, il-pjattaforma tappoġġa formati rilevanti għall-metadata tal-wirt kulturali, bħall-EDM (Mudell tad-Data Europeana) u tiffaċilita l-importazzjoni diretta tal-metadata minn sorsi relatati mal-wirt kulturali bħall-Europeana.eu jew l-għodda MINT użata minn diversi aggregaturi tal-Europeana.
Għalissa, in-nies interessati jistgħu jippruvaw is-SAGE hawnhekk. Il-kodiċi tas-sors huwa disponibbli fuq GitHub (frontend, backend). Tista 'titgħallem kif tuża SAGE wara serje ta' tutorials tal-vidjow u taqra l-istruzzjonijiet tal-Wikipedija
Skopri aktar
F’Settembru 2024, il-proġett AI4Culture se jniedi pjattaforma fejn għodod miftuħa, bħall-għodda SAGE għall-arrikkiment semantiku ppreżentata hawn fuq, se jkunu disponibbli online, flimkien ma’ dokumentazzjoni u materjali ta’ taħriġ relatati. Żomm għajnejk fuq il-paġna tal-proġett fuq Europeana Pro għal aktar dettalji u ibqa’ aġġornat dwar il-proġett LinkedIn u l-kont X!
