Uždaryti Susitikimai su dirbtiniu intelektu: interviu apie automatinį semantinį sodrinimą

Paskelbta 2024 m. liepos 4 d. pagal

Eirini Kaldeli (National Technical University of Athens)

Marco Rendina (European Fashion Heritage Association)

Alexandros Chortaras (National Technical University of Athens)

Marco Rendina: Pradėkime nuo pagrindų. Kas yra semantinis praturtėjimas?

Eirini Kaldeli: Semantinis praturtinimas yra naujos semantikos pridėjimas prie nestruktūrizuotų duomenų, pvz., Laisvo teksto, kad mašinos galėtų jį suprasti ir užmegzti ryšius su juo. Tekstinių metaduomenų, kuriais apibūdinami kultūros paveldo objektai, atveju juos galima analizuoti ir papildyti kontroliuojamomis sąvokomis iš susietųjų atvirųjų duomenų rinkinių arba žodynų, pvz., Wikidata arba Getty Art & Architektūros tezauras (AAT). Šie terminai paprastai vadinami anotacijomis ir gali reikšti sąvokas ir požymius (pvz., „Costume“ arba „Renaissance“), asmenis, vietas, organizacijas arba chronologinius laikotarpius. Pavyzdžiui, eilutės „Leonardo da Vinci“ ir „da Vinci, Leonardo“ gali būti susietos su Wikidata elementu, vaizduojančiu Italijos renesanso polimatą.

MR – Kodėl svarbu papildyti metaduomenis sąvokomis iš susietųjų atvirųjų duomenų rinkinių ar žodynų?

EK: Semantinis praturtinimas suteikia prasmę ir kontekstą skaitmeninėms kolekcijoms ir palengvina jų atradimą. Atsižvelgiant į iniciatyvos „Europeana“, taip pat atskirų duomenų kaupėjų ir duomenų teikėjų svarbą, tai buvo pagrindinis šios iniciatyvos rūpestis ir tikslas.

Pirma, dėl susietųjų duomenų tekstiniai metaduomenys tampa vienareikšmiai. Pavyzdžiui, eilutė „Leonardo da Vinci“, priklausomai nuo konteksto, taip pat gali reikšti Italijos oro uostą arba to paties pavadinimo karo laivą. Kiekviena iš šių sąvokų pateikiama per specialų URI (unikalų nuorodos identifikatorių) iš Wikidata, todėl, susiejus tekstą su teisingu URI, tampa aišku, ką tekstas reiškia.

Antra, susieti duomenys leidžia mums gauti papildomos informacijos apie tam tikrą subjektą, kurti ryšius tarp skirtingų išteklių ir juos kontekstualizuoti. Pavyzdžiui, tai leidžia susieti elementus, pažymėtus terminu „žiedas“, su platesne sąvoka „juvelyriniai dirbiniai“, ir susieti juos su elementais, praturtintais terminu „apyrankė“, kuris taip pat yra „juvelyrinių dirbinių“ pavyzdys.

Galiausiai susieti duomenys paprastai pateikiami kartu su vertimais, taip pagerinant daugiakalbės paieškos galimybes. Taip interneto saugyklomis besinaudojantys asmenys gali naršyti ir ieškoti rinkinių vadinamuoju semantiniu lygmeniu: asmuo, ieškantis žodžio „κόσμημα“ (graikiškas žodis „juvelyriniai dirbiniai“), galės rasti žiedais ir apyrankėmis vadinamų daiktų.

MR – Aleksandras, praturtindamas metaduomenis, reikalauja pastangų ir išteklių, kurių kultūros paveldo įstaigoms dažnai trūksta. Kaip skaitmeninės technologijos gali padėti spręsti šią problemą?

Alexandros Chortaras: Kultūros paveldo įstaigos gali naudoti pažangiausias technologijas, kad automatizuotų rankinį, daug laiko reikalaujantį ir dažnai kasdienį metaduomenų praturtinimo procesą. Natūralios kalbos apdorojimo priemonės gali būti naudojamos tekstiniams metaduomenims analizuoti ir įvardytiems objektams, pvz., asmenims ar vietovių pavadinimams, paminėtiems nestruktūrizuotame tekste, aptikti ir klasifikuoti. Mašininio mokymosi metodai plačiai naudojami siekiant nuslėpti įvardytą subjektą, kuris yra atsakingas už sprendimą, ar, pavyzdžiui, tekste nuoroda į „Leonardo da Vinci“ reiškia Italijos polimatą, ar mūšio laivą. Atsižvelgiant į teksto charakteristikas, pvz., jo ilgį ir kalbą, žodyną, su kuriuo norime jį susieti, ir subjektų, kuriuos norime aptikti, tipą, reikia derinti priemones, kurios yra tinkamiausios konkrečiai užduočiai atlikti. Pavyzdžiui, remiantis mūsų patirtimi, susijusia su ankstesniais projektais, pvz., CRAFTED, tam tikroms užduotims, kurioms taikomas aiškiai apibrėžtas ribotas kontekstas, net paprastas lemmatizavimas ir eilučių atitikties metodas gali būti tinkamesnis nei sudėtingi ML grindžiami algoritmai.

MR – Bet ar galiu visiškai pasitikėti automatinio algoritmo rezultatais? Ką daryti, jei jis daro klaidų?

AC – Iš tiesų, automatiniai algoritmai, analizuojantys laisvą tekstą įvardyto subjekto atpažinimui ir dviprasmiškumui, daro klaidas. Tikslumas priklauso nuo užduoties ir taikomo algoritmo. Pavyzdžiui, trumpi tekstiniai aprašymai, kurie yra įprasti metaduomenyse, neturi konteksto, todėl ML algoritmai, apmokyti "Wikipedia" straipsniuose, gali sukelti neteisingus atitikmenis.

Be to, net jei automatiškai nustatytos nuorodos yra teisingos, tam tikromis aplinkybėmis jos gali būti laikomos nepageidaujamomis. Pavyzdžiui, metaduomenų įrašų susiejimas su spalvas vaizduojančiais terminais gali būti svarbus mados kolekcijai, tačiau tai gali būti nepageidautina apibūdinant rankraštį, kuriame minima tam tikra spalva. Todėl būtina, kad žmogus patikrintų ir patvirtintų automatines pastabas. Tačiau, kadangi dažnai yra tūkstančiai automatinių pastabų, rankinis patvirtinimas gali būti labai daug išteklių reikalaujantis procesas. Praktiniu lygmeniu žmonės turėtų peržiūrėti atrinktą anotacijų imtį ir, priklausomai nuo rezultatų ir tikslo, nuspręsti dėl tinkamų filtravimo kriterijų.

MR – Paskutinis klausimas Eirini. Yra daug algoritmų ir bibliotekų, tačiau atrodo, kad jiems sukurti reikia daug techninių žinių. Kaip „AI4Culture“ padeda kultūros paveldo įstaigoms pasinaudoti šiomis technologijomis?

ΕΚ: Projekto „AI4Culture“ kontekste dirbame ties Atėnų nacionalinio technikos universiteto sukurta platforma „SAGE“. SAGE padeda semantiškai praturtinti kultūros paveldo metaduomenis, nes siūlo nustatytų anotatorių (praturtinimo šablonų), sukonfigūruotų taip, kad atitiktų sektoriaus poreikius, rinkinį. Platforma palaiko visą praturtėjimo procesą – nuo duomenų importo ir automatinio semantinių anotacijų rengimo iki žmogaus atliekamo patvirtinimo ir duomenų skelbimo tokiu formatu, kokio tikisi Europeana. Ši priemonė buvo sėkmingai naudojama siekiant praturtinti kultūros paveldo metaduomenis keliose taikomosiose programose (be kita ko, įgyvendinant projektus CRAFTED ir „Europeana XX“). Kalbant apie programą „AI4Culture“, ji buvo išplėsta siekiant paslėpti automatinių semantinio praturtinimo algoritmų techninį sudėtingumą ir remti sklandų sąveikumą su bendra Europos kultūros paveldo duomenų erdve. Šiuo tikslu platforma palaiko su kultūros paveldo metaduomenimis susijusius formatus, pavyzdžiui, EDM (Europeanos duomenų modelį), ir sudaro palankesnes sąlygas tiesiogiai importuoti metaduomenis iš su kultūros paveldu susijusių šaltinių, pavyzdžiui, Europeana.eu arba MINT priemonės, kurią naudoja keli Europeanos telkėjai.

Šiuo metu susidomėję žmonės gali išbandyti SAGE čia. Šaltinio kodą galima rasti „GitHub“ (frontend, backend). Galite sužinoti, kaip naudoti SAGE po vaizdo samouczków serijos ir skaityti Wiki instrukcijas

Sužinokite daugiau

2024 m. rugsėjo mėn. pagal projektą „AI4Culture“ bus sukurta platforma, kurioje atviros priemonės, pavyzdžiui, pirmiau pateikta semantinio sodrinimo priemonė SAGE, kartu su susijusia dokumentacija ir mokomąja medžiaga bus prieinamos internetu. Daugiau informacijos rasite „Europeana Pro“ projekto puslapyje ir „LinkedIn“ bei „X“ paskyrose!