Permiterea traducerii automate pentru îmbogățire
Un instrument API dezvoltat de partenerul de proiect Pangeanic detectează limba utilizată în metadatele Europeana și permite traducerea automată a acesteia. Numit Heritage Metadata Automatic Translation Service (HM ATS), acest instrument face parte dintr-o suită de instrumente de îmbogățire semantică dezvoltate de Europeana XX.
Pentru a crea instrumentul, Pangeanic a construit 10 motoare de traducere automată neuronală (traducând italiană, germană, cehă, greacă, franceză, suedeză, catalană, olandeză, poloneză și spaniolă în engleză). Aceștia au utilizat date de formare din depozitele proprii ale Pangeanic și date deschise pe internet. Pangeanic a angajat, de asemenea, traducători pentru a traduce un număr limitat de înregistrări din arhivele Europeana pentru a avea date de formare specifice Europeana pentru mai multe limbi.
Instrumentul a fost folosit pentru a traduce și îmbogăți aproximativ două milioane și jumătate de înregistrări în timpul proiectului. Pangeanic a extins și a reglat cu succes instrumentul pentru a se potrivi cerințelor de performanță ale unui volum atât de masiv de date. Utilizați singur codul API.
Pentru a evalua și valida calitatea traducerii automate, partenerii au instituit, de asemenea, un sistem de validare a traducerii (pe baza LabelStudio). Profesioniștii din domeniul patrimoniului cultural și vorbitorii nativi ai limbilor relevante au validat peste 2 700 de traduceri utilizând acest sistem. Feedback-ul a fost extrem de pozitiv, confirmând calitatea înaltă a traducerii automate neuronale și faptul că aceasta funcționează bine pentru domeniul patrimoniului cultural digital.
Traducerile validate vor fi utilizate pentru a îmbunătăți în continuare motoarele de traducere automată în cadrul proiectului Europeana Translate, în care Pangeanic este, de asemenea, implicat. Scopul acestui proiect este de a ajuta Europeana să progreseze în ceea ce privește punerea în aplicare a strategiei sale multilingve, prin furnizarea de traduceri de metadate care vor permite o mai bună căutare și afișare a colecțiilor sale în limbile lor materne și în limbile utilizatorilor.
Îmbogățirea seturilor de date
SAGE, un instrument web pentru producerea, îmbogățirea, publicarea, accesarea și gestionarea seturilor de date RDF, a fost dezvoltat de Universitatea Tehnică Națională din Atena (NTUA) pentru Europeana XX. RDF (resource description framework) este un limbaj utilizat pentru a reprezenta conținutul unui set de date. Datele RDF pot fi importate sau generate direct din diverse surse și formate de date, organizate în seturi de date și îmbogățite cu ajutorul adnotatorilor. Aceste îmbogățiri pot fi apoi validate manual. Toate seturile de date, inclusiv orice adnotări, pot fi publicate în magazinele RDF, indexate și accesate prin apeluri API.
Datorită SAGE, anumite părți ale seturilor de date publicate pot fi acum adnotate și îmbogățite prin intermediul serviciilor API externe, cum ar fi instrumentele care leagă datele de Wikidata, DBPedia, Geonames și alte resurse relevante sau instrumentele care detectează apariția termenilor de vocabular în date. Odată ce îmbogățirile sunt făcute în SAGE, acestea sunt apoi validate manual printr-un sistem care permite validări în masă utilizând gruparea textului și sortarea frecvenței textului, atribuirea sarcinilor de validare mai multor utilizatori și monitorizarea atentă a procesului general de validare.
Instrumentul SAGE a fost, de asemenea, utilizat în proiectul Pagode pentru a îmbogăți automat mai mult de 20.000 de înregistrări. Acesta va fi utilizat, de asemenea, în proiectul CRAFTED pentru a analiza câmpurile de metadate și textul extras din instrumentele de analiză a conținutului de inteligență artificială, cu scopul de a identifica și a elimina incertitudinea din partea entităților desemnate. Scopul final este de a îmbogăți mai mult de 100.000 de înregistrări și de a permite validarea și evaluarea de către utilizatori a entităților extrase automat.
Aflați mai multe
Puteți explora toate instrumentele dezvoltate în cadrul proiectului Europeana XX (și al altor proiecte de servicii generice) pe pagina Servicii și instrumente Europeana.
