Bliski susreti s umjetnom inteligencijom: razgovor o automatskom titliranju

Objavljeno 13. lipnja 2024. po

Marco Rendina (European Fashion Heritage Association)

Mauro Cettolo (Bruno Kessler Foundation)

Marco Rendina: Počnimo od početka. Možete li nam dati definiciju titlova?

Mauro Cettolo: Naravno. Titlovi su kratki dijelovi teksta koji se obično pojavljuju na dnu zaslona. Mnogi, ako ne i svi, vidjeli su titlove barem jednom u životu, na primjer, kada gledaju film na jeziku koji ne govorimo. Njima se dostupnost audiovizualnog sadržaja proširuje na osobe koje ne znaju jezik na kojem se govori ili ga iz različitih razloga ne mogu slušati.

MR: Ah, naravno, pa titlovi su prijevodi onoga što se govori?

MC: Zapravo, postoje različite vrste podnaslova. Osim titlova koji korisnicima prikazuju stvarne prijevode onoga što se govori, postoji titlovanje na istom jeziku kao i govor, kao i bogatiji oblik titlovanja, koji uključuje opis zvukova, čineći sadržaj pristupačnijim.

MR: Na kojoj vrsti podnaslova radi projekt AI4Culture?

Usredotočeni smo na višejezično podnaslovljavanje, slijedeći naš san da videosadržaj učinimo dostupnim na stranici Europeana.eu na svim jezicima sve raznolikijoj publici. To je aktivna i izazovna linija istraživanja koja je posljednjih godina doživjela pojavu različitih automatskih pristupa. Među njima su takozvani „kaskadni” pristupi, pri čemu se zadatak rješava nizom zasebnih komponenti umjetne inteligencije za segmentaciju zvuka, transkripciju govora, prevođenje teksta i temporizaciju. Također uključuje nova rješenja, gdje se zadatak obavlja jednim neuronskim modelom dizajniranim za izvršenje svih koraka procesa.

MR: Koji su izazovi razvoja automatskih pristupa podnaslovlja?

MC: Međujezično titlovanje nije samo prijevod. Riječ je o višedimenzionalnom zadatku koji je složeniji zbog potrebe da se istodobno uravnoteže mnogi aspekti.

Počinjemo od audio ulaza: samo taj aspekt, promatran zasebno, predstavlja izazove u području istraživanja koje je danas vrlo aktivno, poznatom kao prijevod govora. Razmotrite, na primjer, činjenicu da su riječi u pisanom tekstu omeđene prostorima, dok nas u audio govoru dopire kao kontinuirani tok, u kojem često riječi postaju izazovne da se razlikuju jedna od druge.

Ako tome dodamo činjenicu da izgovorene riječi do nas dolaze iskrivljene određenim akcentima, izgovorom, oklijevanjem, smetnjama glazbe i pozadinskim zvukovima, ili s zbunjenošću uzrokovanom preklapanjem više zvučnika, možemo zamisliti poteškoće s kojima se stroj, softverski model, suočava u naizgled jednostavnom zadatku poput prevođenja govora.

MR: Sada razumijemo zašto ste definirali podnaslovljavanje kao višedimenzionalni zadatak! Što još otežava?

MC: Pa - vrsta prijevoda potrebna titliranjem tipičan je primjer onoga što nazivamo ograničenim prijevodom. Dobar podnaslov mora ispunjavati posebne zahtjeve, mora biti minimalno invazivan. Da bi bili jednostavni za korištenje, titlovi moraju smanjiti kognitivno opterećenje koje je potrebno da bi korisnik čitao tekst dok gleda sadržaj. Na taj način osoba može uživati u video sadržaju bez ometanja i, prije svega, bez pretjeranog napora zbog čitanja.

MR: Koja ograničenja treba ispuniti podnaslov kako bi se izbjegla invazivnost?

MC: Ograničenja su vremenska, prostorna i sintaktička. S vremenske točke gledišta, titlovi moraju biti savršeno usklađeni s video streamom, kako bi se izbjegle situacije u kojima netko govori, ali ne možemo čitati ono što govore. S prostornog gledišta, titlovi moraju biti dovoljno sažeti da ne zahtijevaju previše vremena za čitanje i smanjenje pokreta očiju (poznatih kao sakate) potrebnih za čitanje. Naposljetku, postoje sintaktička ograničenja; razdvajanje podnaslova na crte ne bi smjelo razdvajati sastavne dijelove fraza. To nisu opća načela: postoje stroga pravila, iako se malo razlikuju među pružateljima sadržaja.

MR: Je li moguće da strojevi obavljaju te zadatke koji su se prije samo nekoliko godina smatrali neostvarivima?

MC: Dijelom, da, zahvaljujući i projektima kao što je AI4Culture. Danas imamo neuronske mrežne modele koji mogu generirati prihvatljive titlove za različite jezične parove. „Prihvatljivo” znači da zasigurno nisu prikladni za velike holivudske produkcije, ali se mogu koristiti za tu ogromnu količinu audiovizualnog materijala koji bi inače ostao zauvijek nedostupan zbog jezičnih barijera i nedostatka resursa za prevođenje. Ponekad naši modeli još uvijek čine pogreške, čak i smiješne, ali mi smo na pravom putu: Mi treniramo modele na određenim jezicima, a rezultati su dovoljni da prenesu značenje onoga što je rečeno i, ako je moguće, prikladni su za ručne revizije - način bolje nego počevši od nule!

MR: Zvuči sjajno - koji su sljedeći izazovi s kojima ćemo se tada suočiti?

MC: Spomenut ću tri.

Prva se odnosi na automatsku evaluaciju sustava. Trenutačno su naše evaluacije rascjepkane na mnoštvo parametara kako bi se modeli procijenili u odnosu na svako od postojećih ograničenja. Kombiniranje tih presuda u jednu ocjenu i dalje je složen problem, kao i jedan od mojih glavnih istraživačkih interesa u neposrednoj budućnosti.

Druga je jezična pokrivenost: danas smo u mogućnosti nositi se s vrlo ograničenim skupom jezičnih parova, uglavnom engleskim. Međutim, u svijetu postoji više od 7000 jezika, a za većinu njih nema podataka, niti računalnih alata i modela.

Treći je izazov zaštita okoliša. Današnja umjetna inteligencija sposobna je činiti velike stvari, ali troškovi energije takozvanih temeljnih modela, koji ovise o ogromnim računalnim resursima, iznimno su visoki. Još puno toga za napraviti, ali projekti poput AI4Culture daju nam priliku da podijelimo svoj rad sa svijetom i kolektivno napredujemo u tom području.

MR: Hvala vam na uvidu u ovo izazovno i uzbudljivo područje istraživanja. Od sada ćemo uživati u titlovima s potpuno drugačijom i mnogo svjesnijom perspektivom!

Saznajte više

Kasnije ovog ljeta, gore predstavljeni automatski cjevovod podnaslova bit će integriran u alat za automatsko podnaslovljavanje otvorenog koda i prilagođen korisnicima. Institucijama kulturne baštine omogućit će se automatsko stvaranje podnaslova na osam jezika za njihove audiovizualne materijale, što će im omogućiti i ručno uređivanje i validaciju.

U rujnu 2024. AI4Culture pokrenut će i platformu na kojoj će otvoreni alati, kao što je alat za automatsko titlovanje, biti dostupni na internetu, zajedno s povezanom dokumentacijom i materijalima za osposobljavanje.

Pratite stranicu projekta na Europeana Pro-u za više detalja i pratite projekt LinkedIn i X račun! Zasad svi zainteresirani za uvođenje automatskog titlovanja mogu istražiti kôd otvorenog koda dostupan na GitHubu.

Bliski susreti s umjetnom inteligencijom: razgovor o automatskom titliranju

Podijeli

Saznajte više

Otkrijte povezani sadržaj