Marco Rendina: Začnime od začiatku. Môžete nám dať definíciu titulkov?
Mauro Cettolo: Jasné. Titulky sú krátke časti textu, ktoré sa zvyčajne zobrazujú v dolnej časti obrazovky. Mnohí, ak nie všetci, videli titulky aspoň raz v našom živote, napríklad pri sledovaní filmu v jazyku, ktorým nehovoríme. Rozširujú dostupnosť audiovizuálneho obsahu na ľudí, ktorí buď nepoznajú jazyk, v ktorom sa hovorí, alebo z rôznych dôvodov nemôžu počúvať zvuk.
MR: Ach, samozrejme, takže titulky sú preklady toho, čo sa hovorí?
MC: V skutočnosti existujú rôzne typy titulkov. Okrem titulkov prezentujúcich používateľom skutočné preklady toho, čo sa hovorí, existuje titulkovanie v rovnakom jazyku ako reč, ako aj bohatšia forma titulkovania, ktorá zahŕňa opis zvukov, čím sa obsah stáva prístupnejším.
MR: Na akom type titulkovania pracuje projekt AI4Culture?
Zameriavame sa na viacjazyčné titulkovanie v súlade s naším snom sprístupniť videoobsah prostredníctvom Europeana.eu vo všetkých jazykoch čoraz rozmanitejšiemu publiku. Ide o aktívnu a náročnú líniu výskumu, ktorá v posledných rokoch zaznamenala vznik rôznych automatických prístupov. Patria medzi ne tzv. kaskádové prístupy, v rámci ktorých sa úloha rieši prostredníctvom súboru samostatných komponentov umelej inteligencie na segmentáciu zvuku, prepis reči, preklad textu a temporizáciu. Zahŕňa aj nové riešenia, kde je úloha vykonávaná jediným neurónovým modelom určeným na vykonanie všetkých krokov procesu.
MR: Aké výzvy predstavuje vývoj automatických prístupov k titulkovaniu?
MC: Viacjazyčné titulkovanie nie je len preklad. Je to mnohostranná úloha, ktorú komplikuje potreba vyvážiť mnohé aspekty súčasne.
Začneme audio vstupom: tento aspekt sám osebe predstavuje výzvy vo výskumnej oblasti, ktorá je dnes veľmi aktívna, známej ako Preklad reči. Zvážte napríklad skutočnosť, že slová v písomnom texte sú ohraničené medzerami, zatiaľ čo v zvukovej reči sa k nám dostane ako nepretržitý prúd, v ktorom sa slová často stávajú náročnými na odlíšenie.
Ak k tomu pridáme skutočnosť, že hovorené slová sa k nám dostávajú skreslené konkrétnymi akcentmi, výslovnosťou, váhaním, so zasahovaním hudby a zvukov v pozadí alebo so zmätkom spôsobeným prekrývaním viacerých reproduktorov, môžeme si predstaviť ťažkosti, ktorým stroj, softvérový model čelí v zdanlivo jednoduchej úlohe, ako je preklad reči.
MR: Teraz chápeme, prečo ste titulkovanie definovali ako mnohostrannú úlohu! Čo iné to sťažuje?
MC: No - typ prekladu, ktorý vyžaduje titulkovanie, je typickým príkladom toho, čo nazývame obmedzený preklad. Dobrý titulok musí spĺňať špecifické požiadavky, musí byť minimálne invazívny. Na to, aby boli titulky používateľsky ústretové, musia minimalizovať kognitívne zaťaženie, ktoré používateľ potrebuje na čítanie textu pri sledovaní obsahu. Týmto spôsobom si človek môže vychutnať video obsah bez rozptýlenia a predovšetkým bez nadmerného úsilia v dôsledku čítania.
MR: Aké obmedzenia musí titulok spĺňať, aby nebol invazívny?
MC: Obmedzenia sú časové, priestorové a syntaktické. Z časového hľadiska musia byť titulky dokonale zosúladené s video streamom, aby sa zabránilo situáciám, keď niekto hovorí, ale nemôžeme čítať to, čo hovorí. Z priestorového hľadiska musia byť titulky dostatočne stručné, aby nevyžadovali príliš veľa času na čítanie a zníženie pohybov očí (známych ako sakady) potrebných na čítanie. Napokon existujú syntaktické obmedzenia; rozdelenie podnadpisu na riadky by nemalo oddeľovať zložky fráz. Toto nie sú všeobecné zásady: existujú prísne pravidlá, aj keď sa medzi poskytovateľmi obsahu mierne líšia.
MR: Je možné, aby stroje vykonávali tieto úlohy, ktoré boli len pred niekoľkými rokmi považované za nedosiahnuteľné?
MC: Čiastočne áno, aj vďaka projektom ako AI4Culture. Dnes máme modely založené na neurónových sieťach schopné generovať prijateľné titulky pre rôzne jazykové páry. „Prijateľné“ znamená, že určite nie sú vhodné pre veľké hollywoodske produkcie, ale sú použiteľné pre obrovské množstvo audiovizuálneho materiálu, ktorý by inak zostal navždy neprístupný z dôvodu jazykových bariér a nedostatku zdrojov na preklad. Niekedy naše modely stále robia chyby, dokonca aj vtipné, ale sme na správnej ceste: trénujeme modely na konkrétnych jazykoch a výsledky sú dostatočné na to, aby sprostredkovali význam toho, čo bolo povedané, a ak je to možné, sú vhodné na manuálne revízie - oveľa lepšie ako začať od nuly!
MR: Znie to skvele - aké sú ďalšie výzvy, ktorým budeme čeliť?
MC: Spomeniem tri.
Prvý sa týka automatického hodnotenia systémov. V súčasnosti sú naše hodnotenia roztrieštené na množstvo metrík na posúdenie modelov podľa jednotlivých obmedzení. Spojenie týchto úsudkov do jedného skóre zostáva zložitým problémom, ako aj jedným z mojich hlavných výskumných záujmov v bezprostrednej budúcnosti.
Druhým je jazykové pokrytie: dnes sme schopní zvládnuť veľmi obmedzený súbor jazykových párov, väčšinou zameraných na angličtinu. Na svete je však viac ako 7 000 jazykov a pre väčšinu z nich neexistujú žiadne údaje, ani počítačové nástroje a modely.
Treťou výzvou je životné prostredie. Dnešná umelá inteligencia je schopná robiť veľké veci, ale náklady na energiu takzvaných základných modelov, ktoré závisia od obrovských výpočtových zdrojov, sú mimoriadne vysoké. Stále je toho veľa, ale projekty ako AI4Culture nám dávajú šancu podeliť sa o našu prácu so svetom a spoločne napredovať v tejto oblasti.
MR: Ďakujeme za váš pohľad na túto náročnú a vzrušujúcu oblasť výskumu. Odteraz si budeme užívať titulky s úplne inou a oveľa vedomejšou perspektívou!
Ďalšie informácie
Neskôr v lete bude uvedený automatický systém titulkovania integrovaný do nástroja na automatické titulkovanie s otvoreným zdrojovým kódom a používateľsky ústretového nástroja na automatické titulkovanie. Umožní inštitúciám správy kultúrneho dedičstva automaticky vytvárať titulky v ôsmich jazykoch pre svoje audiovizuálne materiály, čo umožní aj ich manuálnu úpravu a validáciu.
V septembri 2024 spustí AI4Culture aj platformu, kde budú online sprístupnené otvorené nástroje, ako je nástroj automatického titulkovania, spolu so súvisiacou dokumentáciou a školiacimi materiálmi.
Podrobnejšie informácie nájdete na stránke projektu Europeana Pro a pozrite sa na účet LinkedIn a X projektu. Zatiaľ môžu všetci ľudia, ktorí majú záujem o zavedenie automatického titulkovania, preskúmať otvorený zdrojový kód dostupný na GitHube.
