Bazându-se pe servicii de traducere automată de ultimă generație

Publicat 16 noiembrie 2022 de

Eirini Kaldeli (National Technical University of Athens)

Provocarea metadatelor multilingve

Europeana lucrează cu colecții descrise în nu mai puțin de 37 de limbi și se străduiește să le potrivească cu termenii de căutare care pot apărea în orice limbă. Toate articolele din colecțiile de pe site-ul Europeana sunt descrise într-un set de câmpuri de metadate care transmit informații esențiale despre ele, cum ar fi titlul și creatorul lor. Aceste informații îi ajută pe oameni să descopere și să înțeleagă obiectele de care sunt interesați. În prezent, majoritatea înregistrărilor conțin termeni într-o singură limbă, limba furnizorilor de date. Această lipsă de metadate multilingve împiedică obiectivul Europeana de a oferi un acces larg la colectarea sa în mai multe limbi.

Abordarea multilingvismului în această privință este un efort destul de dificil. În primul rând, metadatele nu sunt un limbaj natural, cu propoziții complete și o gramatică previzibilă; este adesea prezentat în fraze scurte sau chiar în cuvinte unice, ceea ce înseamnă că contextul necesar pentru o traducere exactă este dificil de găsit. În plus, termenii utilizați pot fi foarte specifici; acestea pot arăta ca un termen general, dar au un înțeles diferit atunci când sunt utilizate într-un context legat de patrimoniul cultural.

De exemplu, termenul religios grecesc care reflectă Cina cea de Taină ar putea fi tradus incorect ca Cină Secretă. Repercusiunile acestei traduceri inexacte - sau absența unei traduceri în limba engleză cu totul - ar fi că artefactele grecești cu un titlu sau o descriere referitoare la tema specifică nu ar apărea printre rezultate atunci când cineva caută picturi despre Cina cea de Taină pe site-ul Europeana.

Construirea unei punți între comunitățile de servicii digitale Europeana și eTranslation

Cum colaborează proiectul Europeana Translate cu alte părți interesate și instrumente pentru a aborda această provocare?

Dezvoltat de Comisia Europeană, eTranslation este un instrument lingvistic creat utilizând cele mai noi tehnologii IA și a fost instruit cu privire la volumele mari de date disponibile atât la nivel intern, cât și colectate printr-un efort de colectare a resurselor lingvistice la nivelul UE. În registrul ELRC-SHARE utilizat de eTranslation DSI, patrimoniul cultural este subreprezentat și, prin urmare, soluțiile tehnologice existente sunt mai puțin bine echipate pentru a gestiona aspectele specifice ale datelor privind patrimoniul cultural.

În acest context, construirea de colaborări între părțile interesate din comunitățile Europeana și eTranslation este esențială pentru personalizarea instrumentelor de traducere automată, astfel încât acestea să poată răspunde nevoilor specifice ale domeniului patrimoniului cultural. Europeana Translate urmărește să reunească comunitățile eTranslation și Europeana pentru a aborda provocările cu care se confruntă ambele sectoare. Îmbunătățirea accesului multilingv la patrimoniul cultural digital necesită o serie de roluri și expertiză complementare, care sunt deservite de diverși parteneri ai Europeana Translate (ase vedea aici).

Experimente cu traducere automată

În ultimele luni, partenerii de proiect au colaborat pentru a selecta și a segmenta în mod corespunzător și a curăța înregistrările de metadate de pe site-ul web Europeana. Aceste date au fost apoi exploatate de partenerul de proiect Pangeanic , care le-a utilizat pe lângă cele 12 milioane de segmente de text de traducere din resursele lingvistice generice existente pentru a îmbunătăți acuratețea algoritmilor de traducere automată la traducerea metadatelor privind patrimoniul cultural.

Pangeanic a efectuat o serie de experimente luând în considerare diferite combinații de date de antrenament. Acestea au inclus metadate bilingve din Europeana, date sintetice produse din metadate într-o singură limbă și vocabulare multilingve relevante pentru domeniul patrimoniului cultural. Surse alternative de date, dincolo de Europeana, au fost, de asemenea, luate în considerare pentru limbile pentru care există puține resurse sau nu există deloc resurse cu traduceri în limba engleză. Evaluarea automată a acestor experimente utilizând valori stabilite a permis partenerilor să decidă cu privire la configurarea celor mai bune traduceri automate și să le compare cu rezultatele obținute de alte instrumente de traducere, cum ar fi Google Translate și eTranslate. În general, evaluarea demonstrează îmbunătățiri ale rezultatelor în comparație cu modelele generice pentru majoritatea limbilor.

Motoarele de traducere automată care rezultă din acest proces vor fi utilizate pentru a traduce metadatele din cele 23 de limbi oficiale ale UE în limba engleză (a 24-a limbă oficială). Aceste motoare de traducere vor fi utilizate pentru a genera traduceri automate în limba engleză pentru cel puțin 25 de milioane de înregistrări de metadate pe platforma Europeana. Traducerile vor fi indexate și afișate, îmbunătățind experiența multilingvă a utilizatorilor pe platforma Europeana. Revizitând persoana care caută artefacte inspirate de tema religioasă a "Cina cea de Taină", după finalizarea Europeana Translate, aceștia vor putea accesa și picturi din Grecia, România și multe alte țări care nu sunt incluse în prezent în rezultatele căutării.

În plus, Europeana Translate va pune la dispoziție în mod deschis resursele lingvistice selectate și prelucrate în mod corespunzător pe care le-a produs prin intermediul registrului ELRC-SHARE, în temeiul unei licențe gratuite de reutilizare (CC0). Acest lucru va permite comunității de traducere automată să utilizeze datele deschise pentru a-și instrui, adapta și testa serviciile de traducere în domeniul patrimoniului cultural.

Implicarea oamenilor în buclă

În lunile următoare, lingviștii și profesioniștii din domeniul patrimoniului cultural vor efectua două evaluări complementare ale traducerilor automate produse de experimente.

Instrumentul de evaluare a traducerii automate va fi utilizat pentru a evalua acuratețea și performanța tuturor celor 23 de motoare de traducere. Vor fi organizate trei campanii de externalizare spre public pentru a-i implica pe profesioniștii din domeniul patrimoniului cultural în testarea și evaluarea traducerii automate (limbile care urmează să fie evaluate în acest sens includ franceza, italiana și olandeza). Campaniile vor implica, de asemenea, publicul și vor sensibiliza comunitatea patrimoniului cultural cu privire la puterea serviciilor de traducere automată. Platforma CrowdHeritage va fi utilizată pentru a prezenta traducerile automate în contextul obiectelor de patrimoniu cultural la care se referă.

Rezultatele acestor evaluări vor oferi informații utile și vor fi utilizate pentru a determina pragul de calitate acceptabil pentru publicarea traducerilor automate în Europeana și pentru utilizarea pe platformele proprii ale organizațiilor de patrimoniu cultural.

Află mai multe și implică-te

Pentru a afla mai multe, puteți viziona un videoclip introductiv, un videoclip despre primele rezultate ale proiectului, sau puteți citi despre arhitectura Europeana Translate în această lucrare prezentată la Asociația Europeană pentru Traducerea Automată 2022. Profesioniștii din domeniul audiovizualului, modei și muzeelor vor avea șansa de a contribui la proiect, ajutând la evaluarea rezultatelor în campaniile noastre de nișă, care vor avea loc la începutul anului 2023. Urmăriți pagina evenimentului Europeana Pro pentru a afla mai multe.