Marco Rendina: Să începem cu începutul. Ne puteți da o definiție a subtitrărilor?
Mauro Cettolo: Sigur că da. Subtitrările sunt fragmente scurte de text care apar de obicei în partea de jos a unui ecran. Mulți dintre noi, dacă nu toți, am văzut subtitrări cel puțin o dată în viața noastră, de exemplu, atunci când vizionăm un film într-o limbă pe care nu o vorbim. Acestea extind accesibilitatea conținutului audiovizual la persoanele care fie nu cunosc limba în care este vorbit, fie, din diverse motive, nu pot asculta sunetul.
MR: Ah, desigur, deci subtitrările sunt traduceri a ceea ce se spune?
MC: De fapt, există diferite tipuri de subtitrare. Pe lângă subtitrările care prezintă utilizatorilor traduceri reale a ceea ce se spune, există subtitrări în aceeași limbă ca și discursul, precum și o formă mai bogată de subtitrare, care include descrierea sunetelor, făcând conținutul mai accesibil.
MR: La ce tip de subtitrare lucrează proiectul AI4Culture?
Ne concentrăm pe subtitrarea multilingvă, urmând visul nostru de a face conținutul video disponibil prin intermediul Europeana.eu accesibil în mai multe limbi unui public din ce în ce mai divers. Aceasta este o linie de cercetare activă și provocatoare, care în ultimii ani a văzut apariția diferitelor abordări automate. Printre acestea se numără așa-numitele abordări „în cascadă”, în care sarcina este abordată printr-o serie de componente IA separate pentru segmentarea audio, transcrierea vorbirii, traducerea textului și temporizare. Acesta include, de asemenea, soluții noi, în cazul în care sarcina este efectuată de un singur model neuronal conceput pentru a executa toate etapele procesului.
MR: Ce provocări prezintă dezvoltarea abordărilor automate pentru subtitrare?
MC: Subtitrarea în mai multe limbi nu este o simplă traducere. Este o sarcină cu multiple fațete, complicată de nevoia de a echilibra mai multe aspecte simultan.
Pornim de la intrarea audio: numai acest aspect, privit în mod izolat, prezintă provocări într-un domeniu de cercetare care este foarte activ în prezent, cunoscut sub numele de traducere vocală. Luați în considerare, de exemplu, faptul că cuvintele din textul scris sunt delimitate de spații, în timp ce în vorbirea audio ajunge la noi ca un flux continuu, în care adesea cuvintele devin provocatoare pentru a distinge unul de celălalt.
Dacă adăugăm la aceasta faptul că cuvintele rostite ajung la noi distorsionate de anumite accente, pronunții, ezitări, cu interferența muzicii și a zgomotelor de fundal sau cu confuzia cauzată de suprapunerea mai multor difuzoare, ne putem imagina dificultățile cu care se confruntă o mașină, un model de software, într-o sarcină aparent simplă, cum ar fi traducerea vorbirii.
MR: Acum înțelegem de ce ați definit subtitrarea ca o sarcină cu mai multe fațete! Ce altceva o face dificilă?
MC: Ei bine - tipul de traducere cerut de subtitrare este un exemplu tipic a ceea ce noi numim traducere constrânsă. O subtitrare bună trebuie să îndeplinească cerințe specifice, trebuie să fie minim invazivă. Pentru a fi ușor de utilizat, subtitrările trebuie să reducă la minimum sarcina cognitivă necesară pentru ca utilizatorul să citească textul în timp ce vizionează conținutul. În acest fel, o persoană se poate bucura de conținutul video fără distrageri și, mai presus de toate, fără efort excesiv din cauza citirii.
MR: Ce constrângeri trebuie să îndeplinească un subtitlu pentru a evita să fie invaziv?
MC: Constrângerile sunt temporale, spațiale și sintactice. Din punct de vedere temporal, subtitrările trebuie să fie perfect aliniate cu fluxul video, pentru a evita situațiile în care cineva vorbește, dar nu putem citi ceea ce spun. Din punct de vedere spațial, subtitrările trebuie să fie suficient de concise pentru a nu necesita prea mult timp pentru citire și pentru a reduce mișcările ochilor (cunoscute sub numele de saccade) necesare pentru citire. În cele din urmă, există constrângeri sintactice; împărțirea unui subtitlu în rânduri nu ar trebui să separe elementele constitutive ale frazelor. Acestea nu sunt principii generale: există norme stricte, deși ușor diferite de la un furnizor de conținut la altul.
MR: Este posibil ca mașinile să îndeplinească aceste sarcini care, cu doar câțiva ani în urmă, au fost considerate nerealizabile?
MC: În parte, da, și datorită unor proiecte precum AI4Culture. Astăzi avem modele bazate pe rețele neuronale capabile să genereze subtitrări acceptabile pentru diferite perechi de limbi. „Acceptabile” înseamnă că acestea nu sunt cu siguranță adecvate pentru producțiile majore de la Hollywood, dar pot fi utilizate pentru cantitatea enormă de materiale audiovizuale care altfel ar rămâne pentru totdeauna inaccesibile din cauza barierelor lingvistice și a lipsei de resurse pentru traducere. Uneori, modelele noastre încă mai fac greșeli, chiar și cele amuzante, dar suntem pe drumul cel bun: antrenăm modele în anumite limbi, iar rezultatele sunt suficiente pentru a transmite semnificația a ceea ce s-a spus și, dacă este posibil, sunt potrivite pentru revizuiri manuale - mult mai bine decât să pornim de la zero!
MR: Sună minunat - care sunt următoarele provocări cu care ne vom confrunta atunci?
MC: Voi menționa trei.
Primul se referă la evaluarea automată a sistemelor. În prezent, evaluările noastre sunt fragmentate într-o multitudine de metrici pentru a evalua modelele în funcție de fiecare dintre constrângerile în joc. Combinarea acestor judecăți într-un singur scor rămâne o problemă complexă, precum și unul dintre principalele mele interese de cercetare în viitorul apropiat.
A doua este cea a acoperirii lingvistice: astăzi suntem în măsură să ne ocupăm de un set foarte limitat de perechi de limbi, în cea mai mare parte centrate pe limba engleză. Cu toate acestea, există peste 7.000 de limbi în lume și, pentru cele mai multe dintre ele, nu există date, nici instrumente și modele informatice.
A treia provocare este de mediu. Inteligența artificială de astăzi este capabilă să facă lucruri mari, dar costurile energetice ale așa-numitelor modele de bază, care depind de resurse computaționale uriașe, sunt extrem de ridicate. Încă mai sunt multe de făcut, dar proiecte precum AI4Culture ne oferă șansa de a împărtăși munca noastră cu lumea și de a avansa colectiv în domeniu.
MR: Vă mulțumim pentru cunoștințele dvs. în acest domeniu de cercetare provocator și interesant. De acum înainte, ne vom bucura de subtitrări cu o perspectivă complet diferită și mult mai conștientă!
Aflați mai multe
Mai târziu în această vară, conducta de subtitrare automată prezentată mai sus va fi integrată într-un instrument de subtitrare automată cu sursă deschisă și ușor de utilizat. Aceasta va permite instituțiilor de patrimoniu cultural să creeze automat subtitrări în opt limbi pentru materialele lor audiovizuale, permițând, de asemenea, editarea și validarea manuală a acestora.
În septembrie 2024, AI4Culture va lansa, de asemenea, o platformă în care instrumentele deschise, cum ar fi instrumentul de subtitrare automată, vor fi puse la dispoziție online, împreună cu documentația și materialele de formare aferente.
Urmăriți pagina proiectului de pe Europeana Pro pentru mai multe detalii și rămâneți la curent cu proiectul LinkedIn și contul X! Deocamdată, toate persoanele interesate de implementarea conductei de subtitrare automată pot explora codul cu sursă deschisă disponibil pe GitHub.
