Uždaryti Susitikimai su dirbtiniu intelektu: pokalbis dėl automatinio subtitravimo

Paskelbta 2024 m. birželio 13 d. pagal

Marco Rendina (European Fashion Heritage Association)

Mauro Cettolo (Bruno Kessler Foundation)

Marco Rendina: Pradėkime nuo pradžių. Ar galite pateikti subtitrų apibrėžimą?

Mauro Cettolo: Žinoma. Subtitrai yra trumpi teksto fragmentai, kurie paprastai rodomi ekrano apačioje. Daugelis, jei ne visi, bent kartą gyvenime matėme subtitrus, pavyzdžiui, žiūrėdami filmą kalba, kuria nekalbame. Jais išplečiamas audiovizualinio turinio prieinamumas žmonėms, kurie arba nemoka kalbos, kuria juo kalbama, arba dėl įvairių priežasčių negali klausytis garso.

MR – Ah, žinoma, todėl subtitrai yra vertimai to, kas sakoma?

MC: Tiesą sakant, yra įvairių subtitravimo rūšių. Be subtitrų, kuriuose vartotojams pateikiami faktiniai to, kas sakoma, vertimai, yra subtitravimas ta pačia kalba kaip ir kalba, taip pat turtingesnė subtitravimo forma, apimanti garsų aprašymą, todėl turinys tampa prieinamesnis.

MR – Kokio tipo subtitravimas vykdomas pagal projektą „AI4Culture“?

Daugiausia dėmesio skiriame daugiakalbiam subtitravimui, atsižvelgdami į savo svajonę padaryti vaizdo įrašų turinį prieinamą per Europeana.eu įvairiomis kalbomis vis įvairesnei auditorijai. Tai aktyvi ir sudėtinga mokslinių tyrimų linija, kuri pastaraisiais metais matė įvairių automatinių metodų atsiradimą. Tai apima vadinamuosius pakopinius metodus, pagal kuriuos užduotis vykdoma naudojant atskirus DI komponentus, skirtus garso segmentavimui, kalbos transkripcijai, teksto vertimui ir temporizavimui. Jis taip pat apima naujus sprendimus, kai užduotį atlieka vienas neuroninis modelis, skirtas visiems proceso etapams atlikti.

MR – Kokius iššūkius kelia automatinių subtitravimo metodų kūrimas?

MC: Tarpkalbinis subtitravimas nėra vien vertimas. Tai daugialypė užduotis, kurią dar labiau apsunkina poreikis vienu metu subalansuoti daugelį aspektų.

Mes pradedame nuo garso įvesties: Vien šis aspektas, vertinamas atskirai, kelia iššūkių mokslinių tyrimų srityje, kuri šiandien yra labai aktyvi, žinoma kaip kalbos vertimas. Apsvarstykite, pavyzdžiui, tai, kad žodžiai rašytiniame tekste yra atskirti tarpais, o garso kalboje pasiekia mus kaip nuolatinį srautą, kuriame dažnai žodžiai tampa sudėtingi atskirti vienas nuo kito.

Jei prie to pridėsime faktą, kad ištarti žodžiai pasiekia mus iškreiptus tam tikrų akcentų, tarimo, dvejonių, muzikos ir fono triukšmo trukdžių ar painiavos, kurią sukelia kelių garsiakalbių persidengimas, galime įsivaizduoti sunkumus, su kuriais susiduria mašina, programinės įrangos modelis, regis, paprasta užduotis, pvz., Kalbos vertimas.

MR – Dabar mes suprantame, kodėl subtitravimą apibrėžėte kaip daugialypę užduotį! Kas dar apsunkina?

MC: Na - toks vertimas, kurio reikia subtitravimui, yra tipiškas pavyzdys to, ką mes vadiname suvaržytu vertimu. Geras subtitras turi atitikti konkrečius reikalavimus, jis turi būti minimaliai invazinis. Kad subtitrai būtų patogūs naudoti, jie turi sumažinti kognityvinę apkrovą, kurios reikia, kad vartotojas galėtų skaityti tekstą žiūrėdamas turinį. Tokiu būdu žmogus gali mėgautis vaizdo įrašo turiniu be blaškymo ir, svarbiausia, be pernelyg didelių pastangų dėl skaitymo.

MR – Kokius apribojimus turi atitikti subtitrai, kad nebūtų invaziniai?

MC: Apribojimai yra laikini, erdviniai ir sintaksiniai. Laiko požiūriu, subtitrai turi būti puikiai suderinti su vaizdo srautu, kad būtų išvengta situacijų, kai kas nors kalba, bet mes negalime perskaityti, ką jie sako. Erdviniu požiūriu subtitrai turi būti pakankamai glausti, kad nereikėtų per daug laiko skaityti ir sumažinti akių judesius (žinomus kaip sakadas), reikalingus skaitymui. Galiausiai yra sintaksės apribojimų; paantraštės suskaidymas į eilutes neturėtų atskirti frazių sudedamųjų dalių. Tai nėra bendrieji principai: yra griežtų taisyklių, nors jos šiek tiek skiriasi tarp turinio teikėjų.

MR – Ar mašinos gali atlikti šias užduotis, kurios vos prieš kelerius metus buvo laikomos nepasiekiamomis?

MC: Iš dalies taip, taip, taip pat dėl tokių projektų kaip AI4Culture. Šiandien mes turime neuroninius tinklo modelius, galinčius generuoti priimtinus subtitrus skirtingoms kalbų poroms. „Priimtini“ reiškia, kad jie tikrai netinka dideliems Holivudo kūriniams, bet gali būti naudojami tokiam dideliam audiovizualinės medžiagos kiekiui, kuris kitu atveju liktų amžinai neprieinamas dėl kalbos barjero ir vertimo išteklių trūkumo. Kartais mūsų modeliai vis dar daro klaidų, net juokingų, bet mes esame teisingame kelyje: mes mokome modelius konkrečiomis kalbomis, o rezultatai yra pakankami, kad perteiktų tai, kas buvo pasakyta, ir, jei įmanoma, tinka rankinėms peržiūroms - geriau nei pradedant nuo nulio!

MR – Skamba puikiai - su kokiais iššūkiais tuomet susidursime?

MC: Paminėsiu tris.

Pirmasis susijęs su automatiniu sistemų vertinimu. Šiuo metu mūsų vertinimai yra suskaidyti į daugybę metrikų, kad galėtume įvertinti modelius pagal kiekvieną iš esamų apribojimų. Šių sprendimų sujungimas į vieną balą tebėra sudėtinga problema, taip pat vienas iš pagrindinių mano mokslinių tyrimų interesų artimiausioje ateityje.

Antrasis yra susijęs su kalbos aprėptimi: šiandien mes galime susidoroti su labai ribotu kalbų porų rinkiniu, daugiausia orientuotu į anglų kalbą. Tačiau pasaulyje yra daugiau nei 7000 kalbų, o daugumai jų nėra nei duomenų, nei kompiuterinių įrankių ir modelių.

Trečiasis iššūkis - aplinkosauga. Šiandieninis dirbtinis intelektas gali atlikti didelius darbus, tačiau vadinamųjų bazinių modelių energijos sąnaudos, kurios priklauso nuo didžiulių skaičiavimo išteklių, yra labai didelės. Dar daug ką reikia nuveikti, tačiau tokie projektai kaip „AI4Culture“ suteikia mums galimybę pasidalyti savo darbu su pasauliu ir kartu daryti pažangą šioje srityje.

MR – Dėkojame už jūsų įžvalgas šioje sudėtingoje ir įdomioje mokslinių tyrimų srityje. Nuo šiol mes mėgausimės subtitrais su visiškai kitokia ir daug sąmoningesne perspektyva!

Sužinokite daugiau

Vėliau šią vasarą pirmiau pateiktas automatinis subtitravimo vamzdynas bus integruotas į atvirojo kodo ir patogią naudoti automatinę subtitravimo priemonę. Tai leis kultūros paveldo įstaigoms automatiškai kurti garso ir vaizdo medžiagos subtitrus aštuoniomis kalbomis, kad būtų galima juos redaguoti ir patvirtinti rankiniu būdu.

2024 m. rugsėjo mėn. „AI4Culture“ taip pat sukurs platformą, kurioje atviros priemonės, pavyzdžiui, automatinė subtitravimo priemonė, kartu su susijusiais dokumentais ir mokomąja medžiaga bus prieinamos internetu.

Daugiau informacijos rasite „Europeana Pro“ projekto puslapyje ir „LinkedIn“ bei „X“ paskyrose! Šiuo metu visi žmonės, norintys įdiegti automatinį subtitravimo vamzdyną, gali ieškoti atvirojo kodo, kurį galima rasti „GitHub“.

Uždaryti Susitikimai su dirbtiniu intelektu: pokalbis dėl automatinio subtitravimo

Dalintis

Sužinokite daugiau

Atraskite susijusį turinį