Marco Rendina: Začnimo z osnovami. Kaj je semantična obogatitev?
Eirini Kaldeli: Semantična obogatitev je proces dodajanja nove semantike nestrukturiranim podatkom, kot je prosto besedilo, tako da jo lahko stroji razumejo in z njo gradijo povezave. V primeru besedilnih metapodatkov, ki opisujejo predmete kulturne dediščine, jih je mogoče analizirati in dopolniti z nadzorovanimi izrazi iz povezanih odprtih podatkovnih nizov ali besednjakov, kot so Wikipodatki ali Getty Art & Arhitekturni tezaver (AAT). Ti izrazi se običajno imenujejo opombe in lahko predstavljajo koncepte in atribute (kot sta „Costume“ ali „Renaissance“), osebe, lokacije, organizacije ali kronološka obdobja. Niza „Leonardo da Vinci“ in „da Vinci, Leonardo“ je na primer mogoče povezati s postavko Wikipodatkov, ki predstavlja italijanskega renesančnega polihistorja.
MR: Zakaj je pomembno obogatiti metapodatke z izrazi iz povezanih odprtih naborov podatkov ali besednjakov?
EK: Semantična obogatitev dodaja pomen in kontekst digitalnim zbirkam in omogoča lažje odkrivanje. Glede na njen pomen je bila glavna skrb in poudarek prizadevanj pobude Europeana ter posameznih združevalcev in ponudnikov podatkov.
Prvič, zaradi povezanih podatkov so besedilni metapodatki nedvoumni. Niz „Leonardo da Vinci“ se lahko na primer glede na okoliščine nanaša tudi na italijansko letališče ali bojno ladjo z istim imenom. Vsak od teh konceptov je predstavljen z namenskim URI (edinstvenim referenčnim identifikatorjem) iz Wikipodatkov, zato s povezovanjem besedila s pravilnim URI postane jasno, na kaj se besedilo nanaša.
Drugič, povezani podatki nam omogočajo, da pridobimo dodatne informacije o določeni entiteti, vzpostavimo povezave med različnimi viri in jih umestimo v kontekst. Omogoča nam na primer, da predmete, označene z izrazom „obroč“, povežemo s širšim pojmom „nakit“ in jih povežemo s predmeti, obogatenimi z izrazom „zapestnica“, ki je tudi primer „nakita“.
Nazadnje, povezani podatki običajno vključujejo prevode, s čimer se izboljšajo zmogljivosti za večjezično iskanje. To tistim, ki uporabljajo spletne repozitorije, omogoča brskanje in iskanje po zbirkah na tako imenovani „semantični ravni“: nekdo, ki išče „κόσμημα“ (grška beseda za „nakit“), bo lahko odkril predmete, opisane kot prstani, in zapestnice.
MR: Za obogatitev metapodatkov so potrebna prizadevanja in viri, ki jih ustanove za varstvo kulturne dediščine pogosto nimajo. Kako lahko digitalne tehnologije pomagajo pri reševanju tega izziva?
Alexandros Chortaras: Ustanove za varstvo kulturne dediščine lahko uporabljajo najsodobnejše tehnologije za avtomatizacijo ročnega, zamudnega in pogosto vsakdanjega procesa obogatitve metapodatkov. Orodja za obdelavo naravnega jezika se lahko uporabljajo za analizo besedilnih metapodatkov ter odkrivanje in razvrščanje imenovanih subjektov, kot so osebe ali imena lokacij, navedena v nestrukturiranem besedilu. Pristopi strojnega učenja se v veliki meri uporabljajo za razločevanje poimenovanih subjektov, ki je odgovorno za odločanje, ali se na primer sklicevanje na „Leonardo da Vinci“ v besedilu nanaša na italijanskega polihistorja ali na bojno ladjo. Glede na značilnosti besedila, kot so njegova dolžina in jezik, besedišče, s katerim ga želimo povezati, in vrsta entitet, ki jih želimo zaznati, je treba združiti orodja, ki so najprimernejša za določeno nalogo. Na primer, iz naših izkušenj s prejšnjimi projekti, kot je CRAFTED, je lahko za nekatere naloge z natančno opredeljenim omejenim kontekstom celo preprost pristop lematizacije in ujemanja nizov primernejši od zapletenih algoritmov, ki temeljijo na ML.
MR: Ali lahko popolnoma zaupam rezultatom avtomatskega algoritma? Kaj pa, če dela napake?
AC: Samodejni algoritmi, ki analizirajo prosto besedilo za prepoznavanje in razločevanje imenovanih subjektov, dejansko delajo napake. Natančnost je odvisna od naloge in uporabljenega algoritma. Na primer, kratki besedilni opisi, ki so pogosti v metapodatkih, nimajo konteksta, zato lahko algoritmi ML, naučeni na člankih v Wikipediji, povzročijo nepravilne zadetke.
Še več, tudi če so samodejno zaznane povezave pravilne, se lahko v določenem kontekstu štejejo za nezaželene. Na primer, povezovanje zapisov metapodatkov z izrazi, ki predstavljajo barve, je lahko pomembno za modno zbirko, vendar je lahko nezaželeno za opis rokopisa, ki omenja določeno barvo. Zato sta človeški pregled in potrjevanje samodejnih oznak nepogrešljiva. Ker pa je pogosto na tisoče samodejnih opomb, je ročno potrjevanje lahko postopek, ki zahteva veliko virov. Na praktični ravni bi morali ljudje pregledati izbrani vzorec oznak in se glede na rezultate in cilj odločiti o ustreznih merilih filtriranja.
MR: Zadnje vprašanje za Eirini. Obstaja veliko algoritmov in knjižnic, vendar se zdi, da je za njihovo vzpostavitev potrebno precejšnje tehnično znanje. Kako AI4Culture pomaga ustanovam za varstvo kulturne dediščine pri izkoriščanju teh tehnologij?
ΕΚ: V okviru projekta AI4Culture delamo na platformi SAGE, ki jo je razvila Nacionalna tehnična univerza v Atenah. SAGE omogoča semantično obogatitev metapodatkov o kulturni dediščini, saj ponuja zbirko uveljavljenih oznak (predloge za obogatitev), ki so konfigurirane tako, da ustrezajo potrebam sektorja. Platforma podpira celoten potek obogatitve, od uvoza podatkov in samodejne izdelave semantičnih oznak do človeške potrditve in objave podatkov v formatu, ki ga pričakuje Europeana. Orodje je bilo uspešno uporabljeno za obogatitev metapodatkov o kulturni dediščini v več aplikacijah (tudi prek projektov CRAFTED in Europeana XX). V okviru pobude AI4Culture je bila razširjena, da bi se prikrila tehnična kompleksnost algoritmov samodejne semantične obogatitve in podprla nemotena interoperabilnost s skupnim evropskim podatkovnim prostorom za kulturno dediščino. V ta namen platforma podpira formate, pomembne za metapodatke o kulturni dediščini, kot je EDM (podatkovni model Europeana), in olajšuje neposreden uvoz metapodatkov iz virov, povezanih s kulturno dediščino, kot sta Europeana.eu ali orodje MINT, ki ga uporablja več združevalcev Europeane.
Zaenkrat lahko zainteresirani preizkusijo SAGE tukaj. Izvorna koda je na voljo na spletišču GitHub (frontend, backend). Naučite se uporabljati SAGE po nizu video vadnic in branju navodil Wiki
Izvedite več
Septembra 2024 bo v okviru projekta AI4Culture vzpostavljena platforma, na kateri bodo na spletu na voljo odprta orodja, kot je zgoraj predstavljeno orodje SAGE za semantično obogatitev, skupaj s povezano dokumentacijo in gradivom za usposabljanje. Bodite pozorni na stran projekta na Europeana Pro za več podrobnosti in ostanite na tekočem s projektom LinkedIn in X račun!
