Marco Rendina: Sāksim ar pamatiem. Kas ir semantiskā bagātināšana?
Eirini Kaldeli: Semantiskā bagātināšana ir process, kurā nestrukturētiem datiem, piemēram, brīvam tekstam, tiek pievienota jauna semantika, lai mašīnas to varētu saprast un veidot savienojumus ar to. Tādu teksta metadatu gadījumā, kas apraksta kultūras mantojuma priekšmetus, tos var analizēt un papildināt ar kontrolētiem terminiem no saistītām atvērtām datu kopām vai vārdnīcām, piemēram, Wikidata vai Getty Art & Arhitektūras tēzaurs (AAT). Šos terminus parasti sauc par anotācijām, un tie var apzīmēt jēdzienus un atribūtus (piemēram, “kostīms” vai “renesanse”), personas, vietas, organizācijas vai hronoloģiskus periodus. Piemēram, virknes “Leonardo da Vinci” un “da Vinci, Leonardo” var sasaistīt ar Wikidata elementu, kas attēlo Itālijas renesanses polimēru.
MR: Kāpēc ir svarīgi bagātināt metadatus ar terminiem no saistītām atvērtām datu kopām vai vārdnīcām?
EK: Semantiskā bagātināšana piešķir nozīmi un kontekstu digitālajām kolekcijām un padara tās vieglāk atklājamas. Ņemot vērā iniciatīvas Europeana nozīmi, tā ir bijusi galvenā problēma un uzmanības centrā iniciatīvas Europeana, kā arī atsevišķu agregatoru un datu sniedzēju centienos.
Pirmkārt, saistītie dati padara teksta metadatus nepārprotamus. Piemēram, virkne “Leonardo da Vinci” atkarībā no konteksta var attiekties arī uz Itālijas lidostu vai kaujas kuģi ar tādu pašu nosaukumu. Katrs no šiem jēdzieniem ir attēlots, izmantojot īpašu URI (unikālo atsauces identifikatoru) no Wikidata, un tādējādi, sasaistot tekstu ar pareizo URI, kļūst skaidrs, uz ko teksts attiecas.
Otrkārt, saistītie dati ļauj mums izgūt papildu informāciju par konkrētu vienību, veidot saiknes starp dažādiem resursiem un kontekstualizēt tos. Piemēram, tas ļauj sasaistīt priekšmetus, kas marķēti ar terminu “gredzens”, ar plašāku jēdzienu “juvelierizstrādājumi”, un savienot tos ar priekšmetiem, kas bagātināti ar terminu “aproce”, kas ir arī “juvelierizstrādājumu” gadījums.
Visbeidzot, saistītie dati parasti tiek tulkoti, uzlabojot daudzvalodu meklēšanas iespējas. Tas ļauj tiem, kas izmanto tiešsaistes repozitorijus, pārlūkot un meklēt kolekcijas tā dēvētajā “semantikas slānī”: persona, kas meklē “κόσμημα” (grieķu vārds “juvelierizstrādājumi”), varēs atklāt priekšmetus, kas aprakstīti kā gredzeni, kā arī aproces.
MR: Alexandros, bagātinot metadatus, prasa pūles un resursus, kas kultūras mantojuma iestādēm bieži trūkst. Kā digitālās tehnoloģijas var palīdzēt risināt šo problēmu?
Alexandros Chortaras: Kultūras mantojuma iestādes var izmantot jaunākās tehnoloģijas, lai automatizētu manuālu, laikietilpīgu un bieži vien ikdienišķu metadatu bagātināšanas procesu. Dabiskās valodas apstrādes rīkus var izmantot, lai analizētu teksta metadatus un noteiktu un klasificētu nosauktās vienības, piemēram, personas vai atrašanās vietas nosaukumus, kas minēti nestrukturētā tekstā. Mašīnmācīšanās pieejas tiek plaši izmantotas, lai nošķirtu nosaukto vienību, kas ir atbildīga par to, lai izlemtu, vai, piemēram, atsauce uz “Leonardo da Vinci” tekstā attiecas uz Itālijas polimu vai kaujas kuģi. Atkarībā no teksta īpašībām, piemēram, tā garuma un valodas, vārdnīcas, ar kuru mēs vēlamies to saistīt, un vienību veida, ko mēs vēlamies atklāt, ir jāapvieno instrumenti, kas ir vispiemērotākie konkrētajam uzdevumam. Piemēram, ņemot vērā mūsu pieredzi ar iepriekšējiem projektiem, piemēram, CRAFTED, dažiem uzdevumiem ar skaidri definētu ierobežotu kontekstu pat vienkārša lemmatizācijas un virknes saskaņošanas pieeja var būt piemērotāka nekā sarežģīti uz ML balstīti algoritmi.
MR: Bet vai es varu pilnībā uzticēties automātiskā algoritma rezultātiem? Ko darīt, ja tā kļūdās?
AC: Patiesi, automātiski algoritmi, kas analizē brīvu tekstu nosaukto vienību atpazīšanai un noklusēšanai, pieļauj kļūdas. Precizitāte ir atkarīga no konkrētā uzdevuma un piemērotā algoritma. Piemēram, īsiem teksta aprakstiem, kas ir izplatīti metadatos, trūkst konteksta, un tādējādi ML algoritmi, kas apmācīti Vikipēdijas rakstos, var izraisīt nepareizas atbilstības.
Turklāt, pat ja automātiski atklātās saites ir pareizas, tās var tikt uzskatītas par nevēlamām noteiktā kontekstā. Piemēram, sasaistot metadatu ierakstus ar terminiem, kas attēlo krāsas, var būt svarīgi modes kolekcijai, bet var būt nevēlami aprakstīt manuskriptu, kurā minēta noteikta krāsa. Tādējādi cilvēka veikta pārbaude un automātisko norāžu apstiprināšana ir obligāta. Tomēr, tā kā bieži vien ir tūkstošiem automātisku norāžu, manuāla validācija var būt ļoti resursietilpīgs process. Praktiskā līmenī cilvēkiem būtu jāpārskata izvēlētais norāžu paraugs un atkarībā no rezultātiem un mērķa jāizlemj par atbilstošiem filtrēšanas kritērijiem.
MR: Pēdējais jautājums Eirini. Ir daudz algoritmu un bibliotēku, bet šķiet, ka to izveidei ir nepieciešamas ievērojamas tehniskās zināšanas. Kā AI4Culture palīdz kultūras mantojuma iestādēm izmantot šīs tehnoloģijas?
ΕΚ: Saistībā ar AI4Culture projektu mēs strādājam pie platformas SAGE, ko izstrādājusi Atēnu Valsts tehniskā universitāte. SAGE atvieglo kultūras mantojuma metadatu semantisko bagātināšanu, piedāvājot nozares vajadzībām konfigurētu anotatoru kopumu (bagātināšanas veidnes). Platforma atbalsta visu bagātināšanas darbplūsmu, sākot no datu importa un semantisko anotāciju automātiskas sagatavošanas līdz cilvēka veiktai validācijai un datu publicēšanai Europeana paredzētajā formātā. Šis rīks ir veiksmīgi izmantots, lai bagātinātu kultūras mantojuma metadatus vairākās lietojumprogrammās (tostarp projektos CRAFTED un Europeana XX). Saistībā ar AI4Culture tas ir paplašināts, lai slēptu automātisko semantiskās bagātināšanas algoritmu tehnisko sarežģītību un atbalstītu netraucētu sadarbspēju ar kopīgo Eiropas kultūras mantojuma datu telpu. Šajā nolūkā platforma atbalsta formātus, kas attiecas uz kultūras mantojuma metadatiem, piemēram, EDM (Europeana datu modelis), un atvieglo metadatu tiešu importu no avotiem, kas saistīti ar kultūras mantojumu, piemēram, Europeana.eu vai MINT rīku, ko izmanto vairāki Europeana agregatori.
Tagad ieinteresētie cilvēki var izmēģināt SAGE šeit. Pirmkods ir pieejams GitHub (priekšpuse, aizmugure). Jūs varat uzzināt, kā izmantot SAGE pēc vairākām video pamācībām un lasot Wiki norādījumus
Uzzināt vairāk
2024. gada septembrī AI4Culture projekts atklās platformu, kurā tiešsaistē būs pieejami atvērtie rīki, piemēram, iepriekš minētais SAGE rīks semantiskai bagātināšanai, kā arī ar to saistītā dokumentācija un mācību materiāli. Sekojiet līdzi projekta lapai Europeana Pro, lai uzzinātu vairāk, un sekojiet līdzi projekta LinkedIn un X kontam!
