Marco Rendina: Počnimo od osnova. Što je semantičko obogaćivanje?
Eirini Kaldeli: Semantičko obogaćivanje je proces dodavanja nove semantike nestrukturiranim podacima, kao što je slobodan tekst, kako bi strojevi mogli shvatiti i izgraditi veze s njom. U slučaju tekstualnih metapodataka koji opisuju predmete kulturne baštine, oni se mogu analizirati i povećati kontroliranim pojmovima iz povezanih otvorenih skupova podataka ili rječnika, kao što su Wikipodaci ili Getty Art & Arhitektonski tezaurus (AAT). Ti se pojmovi obično nazivaju bilješkama i mogu predstavljati pojmove i atribute (kao što su „troškovi” ili „renesansa”), osobe, lokacije, organizacije ili kronološka razdoblja. Na primjer, žice „Leonardo da Vinci” i „da Vinci, Leonardo” mogu se povezati s predmetom Wikidata koji predstavlja talijanski renesansni polimat.
MR: Zašto je važno metapodatke obogatiti pojmovima iz povezanih otvorenih skupova podataka ili rječnika?
EK: Semantičko obogaćivanje dodaje značenje i kontekst digitalnim zbirkama i čini ih lakše prepoznatljivima. S obzirom na njezinu važnost, inicijativa Europeana, kao i pojedinačni agregatori i pružatelji podataka, bili su glavni izvor zabrinutosti i fokusa.
Prvo, povezani podaci čine tekstualne metapodatke nedvosmislenima. Na primjer, niz „Leonardo da Vinci” može se, ovisno o kontekstu, odnositi i na talijansku zračnu luku ili istoimeni bojni brod. Svaki od tih pojmova predstavljen je putem namjenskog URI-ja (jedinstvenog referentnog identifikatora) iz Wikipodataka i stoga povezivanjem teksta s ispravnim URI-jem postaje jasno na što se tekst odnosi.
Drugo, povezani podaci omogućuju nam dohvaćanje dodatnih informacija o određenom subjektu, izgradnju veza između različitih resursa i njihovu kontekstualizaciju. Na primjer, omogućuje nam povezivanje predmeta označenih izrazom „prsten” sa širim pojmom „nakit” i njihovo povezivanje s predmetima obogaćenima izrazom „narukvica”, koji je također primjer „nakita”.
Naposljetku, povezani podaci obično dolaze s prijevodima, čime se poboljšavaju mogućnosti višejezičnog pretraživanja. To onima koji se koriste internetskim repozitorijima omogućuje pregledavanje i pretraživanje zbirki na takozvanom „semantičkom sloju”: netko tko traži „κόσμημα” (grčka riječ za „nakit”) moći će otkriti predmete opisane kao prstenje i narukvice.
MR: Alexandros, obogaćivanje metapodataka zahtijeva trud i resurse koje institucije kulturne baštine često nemaju. Kako digitalne tehnologije mogu pomoći u rješavanju tog izazova?
Alexandros Chortaras: Institucije kulturne baštine mogu upotrebljavati najsuvremenije tehnologije za automatizaciju ručnog, dugotrajnog i često svakodnevnog procesa obogaćivanja metapodataka. Alati za obradu prirodnog jezika mogu se upotrebljavati za analizu tekstualnih metapodataka te otkrivanje i klasificiranje imenovanih subjekata, kao što su osobe ili imena lokacija, koji se spominju u nestrukturiranom tekstu. Pristupi strojnog učenja u velikoj se mjeri upotrebljavaju za zadaću raščlambe naziva subjekta, što je odgovorno za odlučivanje o tome odnosi li se, na primjer, upućivanje na „Leonardo da Vinci” u tekstu na talijanski polimat ili na bojni brod. Ovisno o značajkama teksta, kao što su njegova duljina i jezik, vokabular s kojim ga želimo povezati i vrsta entiteta koje želimo otkriti, moramo kombinirati alate koji su najprikladniji za određeni zadatak. Na primjer, iz našeg iskustva s prethodnim projektima kao što je CRAFTED, za određene zadatke s dobro definiranim ograničenim kontekstom, čak i jednostavan pristup lemmatizacije i uparivanja nizova može biti prikladniji od složenih algoritama koji se temelje na ML-u.
MR: Ali mogu li u potpunosti vjerovati rezultatima automatskog algoritma? Što ako pogriješi?
AC: Doista, automatski algoritmi koji analiziraju slobodni tekst za prepoznavanje i raskrinkavanje imenovanog subjekta čine pogreške. Točnost ovisi o zadatku i primijenjenom algoritmu. Na primjer, kratki tekstualni opisi koji su uobičajeni u metapodacima nemaju kontekst i stoga ML algoritmi trenirani na Wikipedijinim člancima mogu rezultirati pogrešnim podudaranjima.
Štoviše, čak i ako su automatski otkrivene poveznice točne, one se u određenom kontekstu mogu smatrati nepoželjnima. Na primjer, povezivanje zapisa metapodataka s pojmovima koji predstavljaju boje može biti važno za modnu kolekciju, ali može biti nepoželjno za opisivanje rukopisa u kojem se spominje određena boja. Stoga su ljudski pregled i potvrđivanje automatskih napomena neophodni. Međutim, budući da često postoje tisuće automatskih napomena, ručna validacija može biti vrlo resursno intenzivan proces. Na praktičnoj razini ljudi bi trebali pregledati odabrani uzorak napomena i, ovisno o rezultatima i cilju, odlučiti o odgovarajućim kriterijima filtriranja.
MR: Posljednje pitanje za Eirini. Postoje mnogi algoritmi i knjižnice, ali čini se da je za njihovo postavljanje potrebno znatno tehničko znanje. Kako AI4Culture pomaže institucijama kulturne baštine da iskoriste te tehnologije?
ΕΚ: U kontekstu projekta AI4Culture radimo na platformi pod nazivom SAGE koju je razvilo Nacionalno tehničko sveučilište u Ateni. SAGE olakšava semantičko obogaćivanje metapodataka o kulturnoj baštini ponudom niza etabliranih notatora (predlošci za obogaćivanje) konfiguriranih za potrebe sektora. Platforma podupire cijeli tijek rada na obogaćivanju, od uvoza podataka i automatske proizvodnje semantičkih napomena do ljudske validacije i objavljivanja podataka u formatu koji očekuje Europeana. Alat se uspješno upotrebljavao za obogaćivanje metapodataka o kulturnoj baštini u nekoliko aplikacija (među ostalim u okviru projekata CRAFTED i Europeana XX). U kontekstu platforme AI4Culture proširena je kako bi se sakrila tehnička složenost algoritama automatskog semantičkog obogaćivanja i poduprla neometana interoperabilnost sa zajedničkim europskim podatkovnim prostorom za kulturnu baštinu. U tu svrhu platforma podržava formate relevantne za metapodatke o kulturnoj baštini, kao što je EDM (podatkovni model Europeane) i olakšava izravan uvoz metapodataka iz izvora povezanih s kulturnom baštinom kao što je Europeana.eu ili alat MINT koji upotrebljava nekoliko agregatora Europeane.
Za sada zainteresirani mogu isprobati SAGE ovdje. Izvorni kod dostupan je na GitHubu (frontend, backend). Možete naučiti kako koristiti SAGE nakon niza video tutoriali i čitanje Wiki upute
Saznajte više
U rujnu 2024. u okviru projekta AI4Culture pokrenut će se platforma na kojoj će otvoreni alati, kao što je prethodno predstavljen alat SAGE za semantičko obogaćivanje, biti dostupni na internetu, zajedno s povezanom dokumentacijom i materijalima za osposobljavanje. Pratite stranicu projekta na Europeana Pro-u za više detalja i pratite projekt LinkedIn i X račun!
