Marco Rendina: Să începem cu elementele de bază. Ce este îmbogățirea semantică?
Eirini Kaldeli: Îmbogățirea semantică este procesul de adăugare a unor noi semantice datelor nestructurate, cum ar fi textul liber, astfel încât mașinile să poată înțelege și să construiască conexiuni la acesta. În cazul metadatelor textuale care descriu elemente de patrimoniu cultural, acestea pot fi analizate și completate cu termeni controlați din seturi de date sau vocabulare Linked Open, cum ar fi Wikidata sau Getty Art & Architecture Thesaurus (AAT). Acești termeni sunt denumiți în mod obișnuit adnotări și pot reprezenta concepte și atribute (cum ar fi „Costume” sau „Renaștere”), persoane, locații, organizații sau perioade cronologice. De exemplu, șirurile de caractere „Leonardo da Vinci” și „da Vinci, Leonardo” pot fi legate de elementul Wikidata reprezentând polimatul renascentist italian.
MR: De ce este important să îmbogățim metadatele cu termeni din seturi de date sau vocabulare conectate deschise?
EK: Îmbogățirea semantică adaugă sens și context colecțiilor digitale și le face mai ușor de descoperit. Având în vedere importanța sa, aceasta a reprezentat o preocupare principală și un punct central al eforturilor inițiativei Europeana, precum și ale agregatorilor individuali și ale furnizorilor de date.
În primul rând, datele legate fac ca metadatele textuale să fie lipsite de ambiguitate. De exemplu, șirul „Leonardo da Vinci” se poate referi, de asemenea, în funcție de context, la aeroportul italian sau la un cuirasat cu același nume. Fiecare dintre aceste concepte este reprezentat printr-un URI dedicat (Unique Reference Identifier) de la Wikidata și, astfel, prin legarea textului cu URI-ul corect, devine clar la ce se referă textul.
În al doilea rând, datele legate ne permit să extragem informații suplimentare despre o anumită entitate, să construim conexiuni între diferite resurse și să le contextualizăm. De exemplu, aceasta ne permite să corelăm elementele etichetate cu termenul „inel” cu conceptul mai larg de „bijuterii” și să le interconectăm cu elemente îmbogățite cu termenul „brățară”, care este, de asemenea, un exemplu de „bijuterii”.
În cele din urmă, datele legate vin, de obicei, cu traduceri, îmbunătățind capacitățile de căutare multilingvă. Acest lucru le permite celor care utilizează depozite online să navigheze și să caute colecții la așa-numitul „strat semantic”: o persoană care caută „κόσμημα” (cuvântul grecesc pentru „bijuterii”) va putea descoperi articole descrise ca inele, precum și brățări.
MR: Alexandros, îmbogățirea metadatelor necesită eforturi și resurse pe care instituțiile de patrimoniu cultural le lipsesc adesea. Cum pot contribui tehnologiile digitale la abordarea acestei provocări?
Alexandros Chortaras: Instituțiile de patrimoniu cultural pot utiliza tehnologii de ultimă generație pentru a automatiza procesul manual, consumator de timp și adesea banal de îmbogățire a metadatelor. Instrumentele de prelucrare a limbajului natural pot fi utilizate pentru a analiza metadatele textuale și pentru a detecta și clasifica entitățile numite, cum ar fi numele persoanelor sau ale locațiilor, menționate în textul nestructurat. Abordările de învățare automată sunt utilizate pe scară largă pentru sarcina de dezambiguizare a entității numite, care este responsabilă de a decide dacă, de exemplu, trimiterea la „Leonardo da Vinci” din text se referă la polimatul italian sau la cuirasatul de luptă. În funcție de caracteristicile textului, cum ar fi lungimea și limba, vocabularul cu care dorim să-l legăm și tipul de entități pe care dorim să le detectăm, trebuie să combinăm instrumentele cele mai potrivite pentru sarcina specifică. De exemplu, din experiența noastră cu proiecte anterioare, cum ar fi CRAFTED, pentru anumite sarcini cu un context restrâns bine definit, chiar și o abordare simplă de lemmatizare și corelare a șirurilor poate fi mai adecvată decât algoritmii complexi bazați pe ML.
MR: Dar pot avea încredere deplină în rezultatele unui algoritm automat? Și dacă face greșeli?
CA: Într-adevăr, algoritmii automați care analizează textul liber pentru recunoașterea și dezambiguizarea entității numite fac greșeli. Precizia depinde de sarcina la îndemână și de algoritmul aplicat. De exemplu, descrierile textuale scurte care sunt comune în metadate nu au context și, prin urmare, algoritmii ML instruiți pe articolele Wikipedia pot duce la potriviri incorecte.
În plus, chiar dacă linkurile detectate automat sunt corecte, acestea pot fi considerate nedorite într-un anumit context. De exemplu, legarea înregistrărilor de metadate cu termeni reprezentând culori poate fi importantă pentru o colecție de modă, dar poate fi nedorită pentru descrierea unui manuscris care se întâmplă să menționeze o anumită culoare. Astfel, inspecția umană și validarea adnotărilor automate sunt indispensabile. Cu toate acestea, deoarece există adesea mii de adnotări automate, validarea manuală poate fi un proces care necesită foarte multe resurse. La nivel practic, oamenii ar trebui să revizuiască un eșantion selectat de adnotări și, în funcție de rezultate și de obiectiv, să decidă cu privire la criteriile de filtrare adecvate.
MR: O ultimă întrebare pentru Eirini. Există mulți algoritmi și biblioteci, dar se pare că sunt necesare cunoștințe tehnice considerabile pentru a le configura. Cum ajută AI4Culture instituțiile de patrimoniu cultural să profite de aceste tehnologii?
ΕΚ: În contextul proiectului AI4Culture, lucrăm la o platformă, denumită SAGE, dezvoltată de Universitatea Tehnică Națională din Atena. SAGE facilitează îmbogățirea semantică a metadatelor privind patrimoniul cultural, oferind o suită de adnotatori consacrați (șabloane de îmbogățire) configurați pentru a răspunde nevoilor sectorului. Platforma sprijină întregul flux de lucru de îmbogățire, de la importul de date și producerea automată de adnotări semantice până la validarea umană și publicarea datelor în formatul așteptat de Europeana. Instrumentul a fost utilizat cu succes pentru a îmbogăți metadatele privind patrimoniul cultural în mai multe aplicații (inclusiv prin proiectele CRAFTED și Europeana XX). În contextul AI4Culture, acesta a fost extins pentru a ascunde complexitatea tehnică a algoritmilor de îmbogățire semantică automată și pentru a sprijini interoperabilitatea neîntreruptă cu spațiul european comun al datelor pentru patrimoniul cultural. În acest scop, platforma sprijină formatele relevante pentru metadatele privind patrimoniul cultural, cum ar fi EDM (Europeana Data Model), și facilitează importul direct de metadate din surse legate de patrimoniul cultural, cum ar fi Europeana.eu sau instrumentul MINT utilizat de mai mulți agregatori Europeana.
Pentru moment, persoanele interesate pot încerca SAGE aici. Codul sursă este disponibil pe GitHub (frontend, backend). Puteți învăța cum să utilizați SAGE urmând o serie de tutoriale video și citind instrucțiunile Wiki
Aflați mai multe
În septembrie 2024, proiectul AI4Culture va lansa o platformă unde vor fi puse la dispoziție online instrumente deschise, cum ar fi instrumentul SAGE pentru îmbogățirea semantică prezentat mai sus, împreună cu documentația și materialele de formare aferente. Urmăriți pagina proiectului de pe Europeana Pro pentru mai multe detalii și rămâneți la curent cu proiectul LinkedIn și contul X!
