Bližnja srečanja z umetno inteligenco: intervju o samodejnem podnaslavljanju

Objavljeno 13. junij 2024 po

Marco Rendina (European Fashion Heritage Association)

Mauro Cettolo (Bruno Kessler Foundation)

Marco Rendina: Začnimo na začetku. Nam lahko podaš definicijo podnapisov?

Mauro Cettolo: Ja. -Seveda. Podnapisi so kratki deli besedila, ki se običajno pojavijo na dnu zaslona. Mnogi, če ne vsi, smo vsaj enkrat v življenju videli podnapise, na primer pri gledanju filma v jeziku, ki ga ne govorimo. Dostopnost avdiovizualnih vsebin razširjajo na ljudi, ki bodisi ne poznajo jezika, v katerem se govorijo, bodisi iz različnih razlogov ne morejo poslušati zvoka.

MR: Ah, seveda, tako podnapisi so prevodi tega, kar je bilo povedano?

MC: Pravzaprav obstajajo različne vrste podnaslavljanja. Poleg podnapisov, ki uporabnikom predstavljajo dejanske prevode povedanega, obstaja podnaslavljanje v istem jeziku kot govor, pa tudi bogatejša oblika podnaslavljanja, ki vključuje opis zvokov, zaradi česar je vsebina dostopnejša.

MR: S kakšnim podnaslavljanjem se ukvarja projekt AI4Culture?

Osredotočamo se na medjezikovno podnaslavljanje in sledimo našim sanjam, da bi bile video vsebine prek Europeane.eu dostopne v vseh jezikih vse bolj raznolikemu občinstvu. To je aktivna in zahtevna raziskovalna linija, ki je v zadnjih letih doživela pojav različnih avtomatskih pristopov. Ti vključujejo tako imenovane „kaskadne“ pristope, pri katerih se naloga obravnava s pripravo ločenih komponent umetne inteligence za segmentacijo zvoka, transkripcijo govora, prevajanje besedila in temporizacijo. Vključuje tudi nove rešitve, kjer nalogo izvaja en sam nevronski model, zasnovan za izvedbo vseh korakov procesa.

MR: Kakšne izzive prinaša razvoj samodejnih pristopov za podnaslavljanje?

MC: Navzkrižno podnaslavljanje ni zgolj prevod. Gre za večplastno nalogo, ki jo otežuje potreba po sočasnem uravnoteženju številnih vidikov.

Začnemo z avdio vhodom: samo ta vidik, obravnavan ločeno, predstavlja izzive na raziskovalnem področju, ki je danes zelo dejavno, znano kot prevajanje govora. Razmislite na primer o dejstvu, da so besede v pisnem besedilu omejene s presledki, medtem ko nas v zvočnem govoru doseže kot neprekinjen tok, v katerem pogosto besede postanejo izziv, da se razlikujejo med seboj.

Če k temu dodamo dejstvo, da nas izgovorjene besede dosežejo popačene s posebnimi poudarki, izgovorjavo, obotavljanjem, z vmešavanjem glasbe in hrupa v ozadju ali z zmedo, ki jo povzroča prekrivanje več zvočnikov, si lahko predstavljamo težave, s katerimi se sooča stroj, model programske opreme, v navidezno preprosti nalogi, kot je prevajanje govora.

MR: Zdaj razumemo, zakaj ste podnaslavljanje opredelili kot večplastno nalogo! Kaj še otežuje?

MC: No - vrsta prevoda, ki ga zahteva podnaslavljanje, je tipičen primer tega, kar imenujemo omejen prevod. Dober podnaslov mora izpolnjevati posebne zahteve, mora biti minimalno invaziven. Da bi bili podnapisi uporabniku prijazni, morajo čim bolj zmanjšati kognitivno obremenitev, ki jo uporabnik potrebuje za branje besedila med gledanjem vsebine. Na ta način lahko oseba uživa v video vsebinah brez motenj in predvsem brez pretiranega napora zaradi branja.

MR: Katere omejitve mora izpolnjevati podnaslov, da ne bi bil invaziven?

MC: Omejitve so časovne, prostorske in skladenjske. S časovnega vidika morajo biti podnapisi popolnoma usklajeni z video tokom, da bi se izognili situacijam, ko nekdo govori, vendar ne moremo prebrati, kaj govorijo. S prostorskega vidika morajo biti podnapisi dovolj jedrnati, da ne zahtevajo preveč časa za branje in zmanjšanje gibov oči (znanih kot sakade), ki so potrebni za branje. Nazadnje, obstajajo sintaktične omejitve; razdelitev podnaslova na vrstice ne sme ločevati besednih zvez. To niso splošna načela: obstajajo stroga pravila, čeprav se med ponudniki vsebin nekoliko razlikujejo.

MR: Ali je mogoče, da stroji opravljajo te naloge, ki so se pred nekaj leti štele za nedosegljive?

MC: Delno, da, tudi zahvaljujoč projektom, kot je AI4Culture. Danes imamo nevronske mrežne modele, ki lahko ustvarijo sprejemljive podnapise za različne jezikovne dvojice. „Sprejemljiv“ pomeni, da zagotovo ni primeren za večje hollywoodske produkcije, vendar je uporaben za to ogromno količino avdiovizualnega gradiva, ki bi sicer zaradi jezikovnih ovir in pomanjkanja sredstev za prevajanje ostalo za vedno nedostopno. Včasih naši modeli še vedno delajo napake, tudi smešne, vendar smo na pravi poti: vadimo modele na določenih jezikih, rezultati pa zadostujejo za prenos pomena tega, kar je bilo povedano, in so, če je mogoče, primerni za ročne revizije - veliko bolje kot začeti iz nič!

MR: Sliši se odlično - kateri so naslednji izzivi, s katerimi se bomo soočili?

MC: Omenil bom tri.

Prvi se nanaša na samodejno ocenjevanje sistemov. Trenutno so naše ocene razdrobljene na množico metrik za ocenjevanje modelov glede na vsako od trenutnih omejitev. Združevanje teh sodb v en sam rezultat ostaja zapleten problem, pa tudi eden od mojih glavnih raziskovalnih interesov v bližnji prihodnosti.

Druga je jezikovna pokritost: danes se lahko ukvarjamo z zelo omejenim naborom jezikovnih parov, ki so večinoma osredotočeni na angleščino. Vendar pa je na svetu več kot 7000 jezikov in za večino od njih ni podatkov, niti računalniških orodij in modelov.

Tretji izziv je okolje. Današnja umetna inteligenca je sposobna delati velike stvari, vendar so stroški energije tako imenovanih temeljnih modelov, ki so odvisni od ogromnih računalniških virov, izjemno visoki. Še vedno nas čaka veliko dela, vendar nam projekti, kot je AI4Culture, dajejo priložnost, da svoje delo delimo s svetom in skupaj napredujemo na tem področju.

MR: Zahvaljujemo se vam za vpogled v to zahtevno in vznemirljivo raziskovalno področje. Od zdaj naprej bomo uživali v podnapisih s popolnoma drugačno in veliko bolj ozaveščeno perspektivo!

Izvedite več

Kasneje to poletje bo zgoraj predstavljeni samodejni cevovod za podnaslavljanje integriran v odprtokodno in uporabniku prijazno orodje za samodejno podnaslavljanje. Ustanovam za varstvo kulturne dediščine bo omogočil samodejno ustvarjanje podnapisov v osmih jezikih za njihovo avdiovizualno gradivo, kar bo omogočilo tudi ročno urejanje in potrjevanje.

Septembra 2024 bo platforma AI4Culture vzpostavila tudi platformo, na kateri bodo na spletu na voljo odprta orodja, kot je orodje za samodejno podnaslavljanje, skupaj s povezano dokumentacijo in gradivom za usposabljanje.

Bodite pozorni na stran projekta na Europeana Pro za več podrobnosti in ostanite na tekočem s projektom LinkedIn in X račun! Za zdaj lahko vsi, ki jih zanima uvedba samodejnega cevovoda za podnaslavljanje, raziščejo odprtokodno kodo, ki je na voljo na spletišču GitHub.

Bližnja srečanja z umetno inteligenco: intervju o samodejnem podnaslavljanju

Deli

Izvedite več

Odkrijte povezano vsebino