Europeana Traduceți
Proiectul eTranslation CEF Telecom Europeana Translate își propune să consolideze conexiunile dintre infrastructura eTranslation și spațiul european comun al datelor pentru patrimoniul cultural, implementat de Inițiativa Europeana, în beneficiul ambelor părți. Pe de o parte, proiectul urmărește să îmbunătățească gradul de utilizare a resurselor patrimoniului cultural prin îmbogățirea seturilor de date privind patrimoniul cultural cu metadate multilingve. Pe de altă parte, aceasta îmbunătățește resursele lingvistice puse la dispoziție în mod deschis prin intermediul coordonării resurselor lingvistice europene cu metadate de la milioane de obiecte de patrimoniu cultural, care au fost selectate, curățate și normalizate cu atenție, astfel încât să devină accesibile în scopuri de formare.
În acest scop, Europeana Translate a dezvoltat și a implementat instrumente de traducere automată adaptate nevoilor sectorului patrimoniului cultural. Instrumentele sunt aplicate pentru a traduce metadatele a peste 25 de milioane de înregistrări disponibile în prezent prin intermediul infrastructurii Europeana din 22 de limbi oficiale ale UE în limba engleză, îmbunătățind experiența multilingvă oferită utilizatorilor săi.
Pe parcursul proiectului, partenerii au pregătit un set de motoare de traducere furnizate de partenerul Pangeanic, cu o selecție de metadate selectate din infrastructura Europeana, inclusiv date bilingve și monolingve, precum și vocabulare multilingve. Datele suplimentare selectate de pe site-ul web de colectare a OPUS au fost, de asemenea, luate în considerare pentru limbile care nu erau suficient reprezentate. Au fost efectuate o serie de experimente pentru a decide cu privire la cea mai bună combinație de date de antrenament și configurarea motoarelor pentru fiecare limbă. Prin împărțirea datelor între seturile de formare și seturile de teste, s-a efectuat o evaluare automată bazată pe valori standard (cum ar fi BLEU și TER) pentru toate perechile de limbi. Rezultatele demonstrează o îmbunătățire considerabilă în comparație cu modelele generice Pangeanic (înainte de formarea în domeniu) și cu DSI eTranslation pentru majoritatea limbilor.
Evaluarea traducerii automate de către experți umani
Traducerile automate au fost, de asemenea, supuse unei ample evaluări de către lingviști și experți în domeniul patrimoniului cultural. Evaluatorii au fost rugați să evalueze traducerile automate în limba engleză pe o scară de la 0 la 100, luând în considerare aspecte precum fluența (corectitudine gramaticală), acuratețea (înțelesul general) și adecvarea (utilizarea adecvată a terminologiei). De asemenea, li s-a solicitat să furnizeze feedback suplimentar, inclusiv să raporteze erori importante și recurente. Au fost organizate trei campanii de crowdsourcing prin intermediul platformei CrowdHeritage pentru a implica membri ai sectorului patrimoniului cultural. În ansamblu, la acestea au participat 44 de experți lingviști și 29 de profesioniști din domeniul patrimoniului cultural, care au acordat ratinguri destul de ridicate (peste 80 %) pentru majoritatea celor 22 de limbi.
Rezultatele obținute prin evaluarea umană ne-au oferit informații despre comportamentul motoarelor de traducere automată pentru diferite limbi. O analiză statistică aprofundată a ratingurilor atribuite de oameni, în corelație cu scorurile de încredere automate calculate de motoarele de traducere automată, ne-a permis să determinăm praguri de calitate adecvate pentru publicarea traducerilor din diferite limbi în infrastructura Europeana.
Beneficii pentru utilizatori și instituțiile de patrimoniu cultural
Motoarele de traducere sunt utilizate de infrastructura Europeana pentru a produce, indexa, partaja și afișa traduceri automate în limba engleză ale metadatelor, ceea ce va permite oamenilor să descopere, să analizeze și să reutilizeze mai bine materialele.
Impactul pozitiv al acestei activități a fost confirmat de un sondaj de evaluare a impactului completat de 27 de lingviști și 18 experți în domeniul patrimoniului cultural. Atunci când au fost întrebate cu privire la valoarea adăugată pe care traducerile automate în limba engleză o pot aduce căutării și afișării obiectelor de patrimoniu cultural pe site-ul Europeana, ambele comunități au considerat că este important. Aceștia au raportat, de asemenea, că au apreciat creșterea preconizată a numărului de rezultate ale căutării, care ar include elemente de patrimoniu cultural care nu sunt returnate în prezent atunci când se efectuează căutări în limba engleză: 83,4 % și, respectiv, 62,9 % dintre experții și lingviștii în domeniul patrimoniului cultural au considerat că această îmbunătățire este valoroasă.
În plus, motoarele de traducere create de proiect pot fi utile furnizorilor de date care doresc să traducă metadatele colecțiilor lor în limba engleză, îmbunătățind accesibilitatea colecțiilor lor. Utilizatorii platformei de agregare MINT pot utiliza direct interfața API existentă cu motoarele, în timp ce instituțiile de patrimoniu cultural cu expertiză tehnică pot profita de motoarele de traducere automată ușor de implementat puse la dispoziție în mod deschis în registrul ELG. Toți experții în domeniul patrimoniului cultural care au participat la sondaj au declarat că vor lua în considerare utilizarea instrumentelor Europeana Translate pentru a îmbogăți colecțiile organizației lor cu traduceri automate pentru a îmbunătăți capacitatea de descoperire.
Evenimentul Europeana Translate - modul în care traducerea automată & amplificatorul; accesul multilingv are impact asupra patrimoniului cultural
Doriți să aflați mai multe despre proiectul Europeana Translate, metodologia și rezultatele acestuia? Doriți, de asemenea, să vă aprofundați cunoștințele despre tehnologiile de traducere automată de ultimă generație și despre modul în care acestea pot fi aplicate în sectorul patrimoniului cultural?
Apoi, alăturați-vă nouă la evenimentul Europeana Translate - How machine translation & amp; multilingual access impacts cultural heritage. Acesta este un eveniment online care are loc la 13 aprilie 2023, între orele 14:00 și 17:00 CEST. Veți auzi partenerii de proiect explicând în detaliu metodologia și rezultatele obținute în acești doi ani de activitate. Vor fi discutate, de asemenea, proiecte similare, având întotdeauna în vedere în mod critic importanța traducerilor automate ale datelor/metadatelor privind patrimoniul cultural, cu reflecții asupra etapelor viitoare, a posibilității de utilizare și a provocărilor tehnologiei IA pentru sectorul patrimoniului cultural.
