Blízká setkání s umělou inteligencí: rozhovor o automatickém titulkování

Publikováno 13. června 2024 podle

Marco Rendina (European Fashion Heritage Association)

Mauro Cettolo (Bruno Kessler Foundation)

Marco Rendina: Začněme od začátku. Můžete nám dát definici titulků?

Mauro Cettolo: Jasně, že jo. Titulky jsou krátké části textu, které se obvykle objevují ve spodní části obrazovky. Mnozí, ne-li všichni z nás, viděli titulky alespoň jednou v životě, například při sledování filmu v jazyce, kterým nemluvíme. Rozšiřují dostupnost audiovizuálního obsahu na osoby, které buď neznají jazyk, v němž se jím mluví, nebo z různých důvodů nemohou zvuk poslouchat.

MR: Ach, samozřejmě, takže titulky jsou překlady toho, co se říká?

MC: Ve skutečnosti existují různé typy titulků. Kromě titulků, které představují uživatelům skutečné překlady toho, co je řečeno, existuje titulkování ve stejném jazyce jako řeč, stejně jako bohatší forma titulkování, která zahrnuje popis zvuků, což činí obsah přístupnějším.

MR: Na jakém typu titulků projekt AI4Culture pracuje?

Zaměřujeme se na vícejazyčné titulkování v souladu s naším snem zpřístupnit videoobsah prostřednictvím Europeana.eu stále rozmanitějšímu publiku napříč jazyky. Jedná se o aktivní a náročnou linii výzkumu, která v posledních letech zaznamenala vznik různých automatických přístupů. Patří mezi ně tzv. „kaskádové“ přístupy, kdy je tento úkol řešen řadou samostatných součástí umělé inteligence pro segmentaci zvuku, přepis řeči, překlad textu a temporizaci. Zahrnuje také nová řešení, kde je úkol prováděn jedním neuronovým modelem navrženým tak, aby provedl všechny kroky procesu.

MR: Jaké výzvy představuje vývoj automatických přístupů k titulkování?

MC: Křížové titulky nejsou pouhým překladem. Jedná se o mnohostranný úkol, který je komplikován potřebou vyvážit mnoho aspektů současně.

Začínáme od audio vstupu: Tento aspekt sám o sobě představuje výzvy ve výzkumné oblasti, která je dnes velmi aktivní, známé jako překlad řeči. Vezměme si například skutečnost, že slova v psaném textu jsou vymezena mezerami, zatímco v zvukové řeči se k nám dostává jako nepřetržitý proud, ve kterém se slova často stávají náročnými od sebe odlišit.

Přidáme-li k tomu skutečnost, že mluvená slova k nám přicházejí zkreslená určitými akcenty, výslovností, váháním, rušením hudby a zvuků na pozadí nebo zmatkem způsobeným překrýváním více reproduktorů, můžeme si představit obtíže, kterým stroj, softwarový model, čelí ve zdánlivě jednoduchém úkolu, jako je překlad řeči.

MR: Nyní chápeme, proč jste definovali titulkování jako mnohostranný úkol! Co to ještě ztěžuje?

MC: No - typ překladu vyžadovaný titulkováním je typickým příkladem toho, co nazýváme omezeným překladem. Dobrý podtitul musí splňovat specifické požadavky, musí být minimálně invazivní. Aby byly titulky uživatelsky přívětivé, musí minimalizovat kognitivní zátěž potřebnou k tomu, aby uživatel mohl číst text při sledování obsahu. Tímto způsobem si člověk může vychutnat video obsah bez rozptýlení a především bez nadměrného úsilí kvůli čtení.

MR: Jaká omezení musí podtitul splňovat, aby se zabránilo invazi?

MC: Omezení jsou časová, prostorová a syntaktická. Z časového hlediska musí být titulky dokonale sladěny s video streamem, abychom se vyhnuli situacím, kdy někdo mluví, ale nemůžeme číst, co říká. Z prostorového hlediska musí být titulky dostatečně stručné, aby nevyžadovaly příliš mnoho času na čtení a snížení pohybů očí (známých jako sakady) nezbytných pro čtení. V neposlední řadě existují syntaktická omezení; rozdělení podtitulů na řádky by nemělo oddělovat složky vět. Nejedná se o obecné zásady: existují přísná pravidla, i když se mezi poskytovateli obsahu mírně liší.

MR: Je možné, aby stroje plnily úkoly, které byly ještě před několika lety považovány za nedosažitelné?

MC: Částečně ano, a to i díky projektům, jako je AI4Culture. Dnes máme modely založené na neuronové síti schopné generovat přijatelné titulky pro různé jazykové páry. „Přijatelné“ znamená, že rozhodně nejsou vhodné pro velké hollywoodské produkce, ale jsou použitelné pro obrovské množství audiovizuálního materiálu, který by jinak zůstal navždy nedostupný kvůli jazykovým bariérám a nedostatku zdrojů pro překlad. Někdy naše modely stále dělají chyby, dokonce i ty vtipné, ale jsme na správné cestě: Trénujeme modely na konkrétních jazycích a výsledky jsou dostatečné k tomu, aby zprostředkovaly význam toho, co bylo řečeno, a pokud je to možné, jsou vhodné pro manuální revize - mnohem lepší než začít od nuly!

MR: Zní to skvěle - jaké jsou další výzvy, kterým budeme čelit?

MC: Zmíním tři.

První z nich se týká automatického vyhodnocování systémů. V současné době jsou naše hodnocení roztříštěna do mnoha metrik, aby bylo možné posoudit modely podle každého z omezení, která jsou ve hře. Kombinace těchto úsudků do jediného skóre zůstává složitým problémem, stejně jako jedním z mých hlavních výzkumných zájmů v bezprostřední budoucnosti.

Druhý problém se týká jazykového pokrytí: Dnes jsme schopni se vypořádat s velmi omezenou sadou jazykových párů, většinou zaměřených na angličtinu. Na světě však existuje více než 7 000 jazyků a pro většinu z nich nejsou k dispozici žádná data ani počítačové nástroje a modely.

Třetím problémem je životní prostředí. Dnešní umělá inteligence je schopna dělat velké věci, ale náklady na energii takzvaných základních modelů, které závisejí na obrovských výpočetních zdrojích, jsou extrémně vysoké. Stále máme co dělat, ale projekty jako AI4Culture nám dávají šanci sdílet naši práci se světem a kolektivně pokročit v této oblasti.

MR: Děkujeme vám za váš pohled na tuto náročnou a vzrušující výzkumnou oblast. Od nynějška si budeme užívat titulky s úplně jinou a mnohem uvědomělejší perspektivou!

Zjistit více

Později v létě bude výše uvedený postup automatického titulkování integrován do open source a uživatelsky přívětivého nástroje pro automatické titulkování. Umožní institucím kulturního dědictví automaticky vytvářet titulky pro své audiovizuální materiály v osmi jazycích, což rovněž umožní jejich manuální editaci a validaci.

V září 2024 AI4Culture rovněž spustí platformu, kde budou na internetu zpřístupněny otevřené nástroje, jako je nástroj pro automatické titulkování, spolu se související dokumentací a školicími materiály.

Sledujte stránku projektu na Europeana Pro pro více podrobností a zůstaňte naladěni na projekt LinkedIn a X účet! Prozatím mohou všichni zájemci o zavedení automatického kanálu titulkování prozkoumat kód s otevřeným zdrojovým kódem, který je k dispozici na GitHubu.

Blízká setkání s umělou inteligencí: rozhovor o automatickém titulkování

sdílet

Zjistit více

Objevte související obsah