Marco Rendina: Alustame algusest. Kas saate anda meile subtiitrite määratluse?
Mauro Cettolo: Muidugi. Subtiitrid on lühikesed tekstiosad, mis tavaliselt ilmuvad ekraani allosas. Paljud, kui mitte kõik meist, on näinud subtiitreid vähemalt üks kord oma elus, näiteks vaadates filmi keeles, mida me ei räägi. Need laiendavad audiovisuaalse sisu kättesaadavust inimestele, kes kas ei oska keelt, milles seda räägitakse, või ei saa erinevatel põhjustel heli kuulata.
MR: Nii et subtiitrid on tõlked sellest, mida räägitakse?
MC: Tegelikult on olemas erinevat tüüpi subtiitrid. Lisaks subtiitritele, mis tutvustavad kasutajatele tegelikke tõlkeid sellest, mida räägitakse, on subtiitrid kõnega samas keeles, samuti rikkalikum subtiitrite vorm, mis sisaldab helide kirjeldust, muutes sisu kättesaadavamaks.
MR: Millise subtiitritega projekt AI4Culture töötab?
Keskendume keeleülesele subtiitritega varustamisele, järgides oma unistust teha Europeana.eu kaudu kättesaadav videosisu eri keeltes kättesaadavaks üha mitmekesisemale publikule. See on aktiivne ja väljakutseid pakkuv uurimissuund, mis on viimastel aastatel näinud erinevate automaatsete lähenemisviiside tekkimist. Nende hulka kuuluvad nn astmelised lähenemisviisid, mille puhul lahendatakse ülesanne eraldi tehisintellekti komponentide torujuhtme kaudu audio segmenteerimiseks, kõne transkriptsiooniks, teksti tõlkimiseks ja temporiseerimiseks. See hõlmab ka uudseid lahendusi, kus ülesannet täidab üks närvimudel, mis on mõeldud protsessi kõigi etappide läbiviimiseks.
MR: Milliseid probleeme tekitab subtiitritega varustamise automaatsete lähenemisviiside väljatöötamine?
MC: Keeleline subtiitrid ei ole lihtsalt tõlge. See on mitmetahuline ülesanne, mille muudab keerulisemaks vajadus tasakaalustada korraga paljusid aspekte.
Alustame helisisendist: Ainuüksi see aspekt eraldivõetuna esitab väljakutseid tänapäeval väga aktiivses uurimisvaldkonnas, mida tuntakse kõnetõlke nime all. Mõelge näiteks asjaolule, et kirjalikus tekstis olevad sõnad on piiritletud tühikutega, samas kui helikõne jõuab meile pideva voona, kus sõnad muutuvad sageli keeruliseks üksteisest eristada.
Kui me lisame sellele asjaolu, et räägitud sõnad jõuavad meieni, mida moonutavad konkreetsed rõhud, hääldus, kõhklused, muusika ja taustamüra häired või mitme kõneleja kattumisest põhjustatud segadus, võime ette kujutada raskusi, mida masin, tarkvaramudel, seisab silmitsi näiliselt lihtsa ülesandega, nagu kõne tõlkimine.
MR: Nüüd me mõistame, miks sa defineerisid subtiitrid mitmetahulise ülesandena! Mis veel teeb selle keeruliseks?
MC: Noh - selline tõlge, mida subtiitrid nõuavad, on tüüpiline näide sellest, mida me nimetame piiratud tõlkeks. Hea subtiiter peab vastama konkreetsetele nõuetele, see peab olema minimaalselt invasiivne. Et subtiitrid oleksid kasutajasõbralikud, peavad need minimeerima kognitiivset koormust, mida kasutaja vajab teksti lugemiseks sisu vaatamise ajal. Nii saab inimene videosisu nautida ilma häirivate teguriteta ja ennekõike ilma lugemisest tingitud liigse pingutuseta.
MR: Milliste piirangutega peab subtiiter kokku puutuma, et vältida invasiivsust?
MC: Piirangud on ajalised, ruumilised ja süntaktilised. Ajalisest vaatepunktist peavad subtiitrid olema videovooga täiuslikult joondatud, et vältida olukordi, kus keegi räägib, kuid me ei saa lugeda, mida nad ütlevad. Ruumilisest vaatepunktist peavad subtiitrid olema piisavalt lühikesed, et lugemiseks ei kuluks liiga palju aega ja lugemiseks vajalikud silmaliigutused (saccaadid) väheneksid. Lõpuks on süntaktilised piirangud; subtiitrite jagamine ridadeks ei tohiks eraldada fraaside koostisosi. Need ei ole üldpõhimõtted: kehtivad ranged eeskirjad, kuigi sisuteenuse pakkujate lõikes on need veidi erinevad.
MR: Kas on võimalik, et masinad täidavad neid ülesandeid, mida vaid paar aastat tagasi peeti saavutamatuks?
MC: Osaliselt jah, tänu ka sellistele projektidele nagu AI4Culture. Täna on meil neurovõrgupõhised mudelid, mis suudavad luua vastuvõetavaid subtiitreid erinevatele keelepaaridele. „Vastuvõetav” tähendab, et need ei sobi kindlasti suurte Hollywoodi filmide jaoks, vaid on kasutatavad selle tohutu hulga audiovisuaalse materjali jaoks, mis muidu jääks keelebarjääride ja tõlkeressursside puudumise tõttu igavesti kättesaamatuks. Mõnikord teevad meie mudelid ikka veel vigu, isegi naljakaid, kuid oleme õigel teel: me koolitame mudeleid konkreetsetes keeltes ja tulemused on piisavad, et edastada öeldu tähendust ja võimaluse korral sobivad käsitsi läbivaatamiseks - palju parem kui nullist alustamine!
MR: Kõlab suurepäraselt - millised on järgmised väljakutsed, millega me siis silmitsi seisame?
MC: Ma nimetan kolme.
Esimene puudutab süsteemide automaatset hindamist. Praegu on meie hinnangud killustatud mitmeks parameetriks, et hinnata mudeleid iga olemasoleva piirangu alusel. Nende otsuste ühendamine üheks punktisummaks jääb keeruliseks probleemiks, samuti üheks minu peamiseks uurimishuviks lähitulevikus.
Teine küsimus puudutab keelelist katvust: täna suudame toime tulla väga piiratud hulga keelepaaridega, mis on enamasti ingliskeelsed. Siiski on maailmas üle 7000 keele ja enamikul neist puuduvad andmed, arvutitööriistad ja -mudelid.
Kolmas probleem on keskkond. Tänane tehisintellekt on võimeline tegema suuri asju, kuid nn alusmudelite energiakulud, mis sõltuvad tohututest arvutusressurssidest, on äärmiselt kõrged. Ikka veel on palju teha, kuid sellised projektid nagu AI4Culture annavad meile võimaluse jagada oma tööd maailmaga ja ühiselt selles valdkonnas edasi liikuda.
MR: Täname teid selle keerulise ja põneva uurimisvaldkonna ülevaate eest. Nüüdsest naudime subtiitreid täiesti teistsuguse ja palju teadlikuma vaatenurgaga!
Uuri lähemalt
Hiljem sel suvel integreeritakse eespool esitatud automaatne subtiitritega varustamine avatud lähtekoodiga ja kasutajasõbralikusse automaatsesse subtiitritega varustamise vahendisse. See võimaldab kultuuripärandiasutustel luua oma audiovisuaalsetele materjalidele automaatselt subtiitreid kaheksas keeles, mis võimaldab neid ka käsitsi toimetada ja valideerida.
2024. aasta septembris käivitab AI4Culture ka platvormi, kus tehakse veebis kättesaadavaks avatud vahendid, nagu automaatne subtiitritega varustamise vahend, ning nendega seotud dokumendid ja koolitusmaterjalid.
Lisateabe saamiseks jälgige Europeana Pro projekti lehekülge ja jälgige projekti LinkedIn ja X kontot! Praegu saavad kõik inimesed, kes on huvitatud automaatse subtiitrite torujuhtme kasutuselevõtust, tutvuda GitHubis kättesaadava avatud lähtekoodiga.
