Aizvērt Iepazīšanās ar mākslīgo intelektu: intervija par automātisku subtitrēšanu,

Publicēts 2024. gada 13. jūnijs autors

Marco Rendina (European Fashion Heritage Association)

Mauro Cettolo (Bruno Kessler Foundation)

Marco Rendina: Sāksim no paša sākuma. Vai varat mums sniegt subtitru definīciju?

Mauro Ketolo: Protams. Subtitri ir īsi teksta fragmenti, kas parasti parādās ekrāna apakšā. Daudzi, ja ne visi no mums, ir redzējuši subtitrus vismaz vienu reizi mūsu dzīvē, piemēram, skatoties filmu valodā, kurā mēs nerunājam. Tie paplašina audiovizuālā satura pieejamību cilvēkiem, kuri vai nu neprot valodu, kurā tas tiek runāts, vai dažādu iemeslu dēļ nevar klausīties audio.

MR: Ah, protams, tāpēc subtitri ir tulkojumi par to, kas tiek teikts?

MC: Patiesībā ir dažādi subtitrēšanas veidi. Papildus subtitriem, kas iepazīstina lietotājus ar faktiskiem teiktā tulkojumiem, subtitrēšana notiek tajā pašā valodā kā runa, kā arī bagātīgāks subtitrēšanas veids, kas ietver skaņu aprakstu, padarot saturu pieejamāku.

MR: Kāda veida subtitrēšanu veic AI4Culture projekts?

Mēs koncentrējamies uz starpvalodu subtitrēšanu, sekojot mūsu sapnim padarīt video saturu pieejamu, izmantojot Europeana.eu, dažādās valodās arvien daudzveidīgākai auditorijai. Tas ir aktīvs un izaicinošs pētniecības virziens, kurā pēdējos gados ir parādījušās dažādas automātiskas pieejas. Tās ietver tā dēvētās “kaskādes” pieejas, kurās uzdevums tiek risināts, izmantojot atsevišķus MI komponentus audio segmentācijai, runas transkripcijai, teksta tulkošanai un laika noteikšanai. Tas ietver arī jaunus risinājumus, ja uzdevumu veic ar vienu neironu modeli, kas izstrādāts, lai izpildītu visus procesa posmus.

MR: Kādas problēmas rada automātiskas pieejas izstrāde subtitrēšanai?

MC: Starpvalodu subtitrēšana nav tikai tulkojums. Tas ir daudzšķautņains uzdevums, ko sarežģī nepieciešamība vienlaikus līdzsvarot daudzus aspektus.

Mēs sākam no audio ieejas: šis aspekts vien, skatīts atsevišķi, rada problēmas pētniecības jomā, kas šodien ir ļoti aktīva un pazīstama kā runas tulkošana. Apsveriet, piemēram, to, ka vārdi rakstiskā tekstā ir norobežoti ar atstarpēm, bet audio runā mūs sasniedz kā nepārtrauktu plūsmu, kurā bieži vien vārdi kļūst grūti atšķirt viens no otra.

Ja mēs tam pievienojam faktu, ka runātie vārdi sasniedz mūs izkropļoti ar konkrētiem akcentiem, izrunu, vilcināšanos, ar mūzikas un fona trokšņu iejaukšanos vai ar apjukumu, ko rada vairāku skaļruņu pārklāšanās, mēs varam iedomāties grūtības, ar kurām mašīna, programmatūras modelis saskaras šķietami vienkāršā uzdevumā, piemēram, runas tulkošanā.

MR: Tagad mēs saprotam, kāpēc jūs definējāt subtitrus kā daudzšķautņainu uzdevumu! Kas vēl padara to grūti?

MC: Nu - tulkošanas veids, kas nepieciešams subtitrēšanai, ir tipisks piemērs tam, ko mēs saucam par ierobežotu tulkojumu. Labam apakšvirsrakstam jāatbilst īpašām prasībām, tam jābūt minimāli invazīvam. Lai subtitri būtu lietotājdraudzīgi, tiem jāsamazina kognitīvā slodze, kas nepieciešama, lai lietotājs varētu lasīt tekstu, skatoties saturu. Tādā veidā cilvēks var baudīt video saturu bez traucējumiem un, pats galvenais, bez pārmērīgām pūlēm lasīšanas dēļ.

MR: Kādiem ierobežojumiem ir jāatbilst apakšvirsrakstam, lai izvairītos no invazīvas ietekmes?

MC: Ierobežojumi ir laicīgi, telpiski un sintaktiski. No laika viedokļa subtitriem jābūt perfekti saskaņotiem ar video plūsmu, lai izvairītos no situācijām, kad kāds runā, bet mēs nevaram lasīt to, ko viņi saka. No telpiskā viedokļa subtitriem jābūt pietiekami īsiem, lai neprasītu pārāk daudz laika lasīšanai un samazinātu lasīšanai nepieciešamās acu kustības (pazīstamas kā saccades). Visbeidzot, pastāv sintaktiski ierobežojumi; apakšvirsraksta sadalīšana rindās nedrīkst atdalīt frāžu sastāvdaļas. Tie nav vispārīgi principi: pastāv stingri noteikumi, lai gan satura nodrošinātāju vidū tie nedaudz atšķiras.

MR: Vai mašīnām ir iespējams veikt šos uzdevumus, kas tikai pirms dažiem gadiem tika uzskatīti par nesasniedzamiem?

MC: Daļēji, jā, pateicoties arī tādiem projektiem kā AI4Culture. Šodien mums ir neironu tīkla modeļi, kas spēj radīt pieņemamus subtitrus dažādiem valodu pāriem. “Pieņemami” nozīmē, ka tie noteikti nav piemēroti lieliem Holivudas darbiem, bet ir izmantojami šim milzīgajam audiovizuālo materiālu apjomam, kas citādi uz visiem laikiem paliktu nepieejams valodas barjeru un tulkošanas resursu trūkuma dēļ. Dažreiz mūsu modeļi joprojām pieļauj kļūdas, pat smieklīgas, bet mēs esam uz pareizā ceļa: mēs apmācām modeļus konkrētās valodās, un rezultāti ir pietiekami, lai nodotu teiktā nozīmi, un, ja iespējams, ir piemēroti manuālai pārskatīšanai - labāk nekā sākot no nulles!

MR: Izklausās lieliski - kādi būs nākamie izaicinājumi, ar kuriem mēs saskarsimies?

MC: Es minēšu trīs.

Pirmais attiecas uz sistēmu automātisku novērtēšanu. Pašlaik mūsu novērtējumi ir sadrumstaloti daudzos rādītājos, lai novērtētu modeļus, ņemot vērā katru no pašreizējiem ierobežojumiem. Šo spriedumu apvienošana vienā punktu skaitā joprojām ir sarežģīta problēma, kā arī viena no manām galvenajām pētniecības interesēm tuvākajā nākotnē.

Otrs jautājums ir par valodu nodrošinājumu: šodien mēs spējam tikt galā ar ļoti ierobežotu valodu pāru kopumu, kas galvenokārt orientēts uz angļu valodu. Tomēr pasaulē ir vairāk nekā 7000 valodu, un lielākajai daļai no tām nav ne datu, ne datorrīku un modeļu.

Trešā problēma ir vides aizsardzība. Mūsdienu mākslīgais intelekts spēj paveikt lielas lietas, bet tā saukto pamata modeļu enerģijas izmaksas, kas ir atkarīgas no milzīgiem skaitļošanas resursiem, ir ārkārtīgi augstas. Joprojām ir daudz darāmā, bet tādi projekti kā AI4Culture dod mums iespēju dalīties savā darbā ar pasauli un kopīgi virzīties uz priekšu šajā jomā.

MR: Paldies par jūsu ieskatu šajā sarežģītajā un aizraujošajā pētniecības jomā. No šī brīža mēs baudīsim subtitrus ar pilnīgi atšķirīgu un daudz apzinīgāku perspektīvu!

Uzzināt vairāk

Vēlāk šovasar iepriekš aprakstītais automātiskais subtitrēšanas cauruļvads tiks integrēts atvērtā pirmkoda un lietotājam draudzīgā automātiskās subtitrēšanas rīkā. Tas ļaus kultūras mantojuma iestādēm automātiski izveidot subtitrus astoņās valodās saviem audiovizuālajiem materiāliem, ļaujot arī tos manuāli rediģēt un validēt.

2024. gada septembrī AI4Culture arī izveidos platformu, kurā tiešsaistē būs pieejami atvērtie rīki, piemēram, automātiskais subtitrēšanas rīks, kā arī saistītā dokumentācija un mācību materiāli.

Sekojiet līdzi projekta lapai Europeana Pro, lai uzzinātu vairāk, un sekojiet līdzi projekta LinkedIn un X kontam! Pašlaik visi cilvēki, kas ir ieinteresēti izmantot automātisko subtitrēšanas cauruļvadu, var izpētīt atvērtā pirmkoda kodu, kas pieejams GitHub.

Aizvērt Iepazīšanās ar mākslīgo intelektu: intervija par automātisku subtitrēšanu,

Dalīties

Uzzināt vairāk

Atklājiet saistītu saturu