Találkozások a mesterséges intelligenciával: Interjú az automatikus feliratozásról

Közzétéve 2024. június 13. Szerző:

Marco Rendina (European Fashion Heritage Association)

Mauro Cettolo (Bruno Kessler Foundation)

Marco Rendina: Kezdjük az elejétől. Meg tudja határozni a feliratok fogalmát?

Mauro Cettolo: Persze, hogy az. A feliratok rövid szövegdarabok, amelyek általában a képernyő alján jelennek meg. Sokan, ha nem mindannyian, legalább egyszer láttak feliratot az életünkben, például amikor egy filmet olyan nyelven nézünk, amelyet nem beszélünk. Az audiovizuális tartalmak hozzáférhetőségét kiterjesztik azokra az emberekre, akik vagy nem ismerik azt a nyelvet, amelyen a tartalmat beszélik, vagy különböző okok miatt nem tudják meghallgatni a hangot.

MR: Ah, persze, szóval a feliratok fordításai annak, amit mondanak?

MC: Valójában különböző típusú feliratozás létezik. A felhasználókat az elhangzottak tényleges fordításával bemutató feliratok mellett a beszéd nyelvével azonos nyelvű feliratozás is létezik, valamint a feliratozás gazdagabb formája, amely magában foglalja a hangok leírását, és hozzáférhetőbbé teszi a tartalmat.

MR: Milyen feliratozáson dolgozik az AI4Culture projekt?

A többnyelvű feliratozásra összpontosítunk, követve azon álmunkat, hogy a videótartalmat az Europeana.eu-n keresztül elérhetővé tegyük az egyre sokszínűbb közönség számára. Ez egy aktív és kihívást jelentő kutatási vonal, amely az elmúlt években különböző automatikus megközelítések megjelenését tapasztalta. Ezek közé tartoznak az úgynevezett „lépcsőzetes” megközelítések, ahol a feladatot a hangszegmentálást, a beszédátírást, a szövegfordítást és az időbeli eltolódást szolgáló külön MI-komponensek csővezetékével kezelik. Újszerű megoldásokat is tartalmaz, ahol a feladatot egyetlen neurális modell hajtja végre, amelyet a folyamat minden lépésének végrehajtására terveztek.

MR: Milyen kihívásokat jelent az automatikus feliratozási megközelítések kidolgozása?

MC: A többnyelvű feliratozás nem pusztán fordítás. Ez egy sokrétű feladat, amelyet bonyolultabbá tesz az, hogy egyszerre több szempontot kell kiegyensúlyozni.

Kezdjük az audio bemenettel: ez a szempont önmagában véve kihívást jelent egy olyan kutatási területen, amely ma igen aktív, és amelyet beszédfordításnak neveznek. Vegyük például azt a tényt, hogy az írott szövegben lévő szavakat szóközök határolják, míg az audió beszédben folyamatos áramlatként jutunk el hozzánk, amelyben gyakran a szavak nehezen különböztethetők meg egymástól.

Ha ehhez hozzáadjuk azt a tényt, hogy a kimondott szavak bizonyos akcentusok, kiejtés, habozás, a zene és a háttérzajok interferenciája, vagy a több hangszóró átfedése által okozott zavarodottság miatt torzulva jutnak el hozzánk, elképzelhetjük azokat a nehézségeket, amelyekkel egy gép, egy szoftvermodell szembesül egy látszólag egyszerű feladatban, mint például a beszéd fordítása.

MR: Most már értjük, miért definiáltad a feliratozást sokrétű feladatként! Mi nehezíti még meg?

MC: Nos - a feliratozáshoz szükséges fordítás tipikus példája annak, amit korlátozott fordításnak nevezünk. Egy jó feliratnak meg kell felelnie bizonyos követelményeknek, minimálisan invazívnak kell lennie. Ahhoz, hogy felhasználóbarát legyen, a feliratoknak minimálisra kell csökkenteniük azt a kognitív terhelést, amely ahhoz szükséges, hogy a felhasználó a tartalom megtekintése közben elolvassa a szöveget. Ily módon egy személy szórakoztatás nélkül élvezheti a videotartalmat, és mindenekelőtt az olvasás miatt túlzott erőfeszítés nélkül.

MR: Milyen korlátoknak kell megfelelnie egy feliratnak ahhoz, hogy ne legyen invazív?

MC: A korlátok időbeliek, térbeliek és szintaktikaiak. Időbeli szempontból a feliratoknak tökéletesen illeszkedniük kell a videofolyamhoz, hogy elkerüljük azokat a helyzeteket, amikor valaki beszél, de nem tudjuk elolvasni, amit mondanak. Térbeli szempontból a feliratoknak elég tömörnek kell lenniük ahhoz, hogy ne igényeljenek túl sok időt az olvasáshoz, és csökkentsék az olvasáshoz szükséges szemmozgásokat (szakkádok). Végül vannak szintaktikai korlátok; a feliratok sorokra bontása nem választhatja el a mondatok alkotórészeit. Ezek nem általános elvek: szigorú szabályok vannak érvényben, bár némileg eltérnek a tartalomszolgáltatók között.

MR: Lehetséges-e, hogy a gépek elvégezzék azokat a feladatokat, amelyeket néhány évvel ezelőtt elérhetetlennek tartottak?

MC: Részben igen, köszönhetően olyan projekteknek is, mint az AI4Culture. Ma már olyan neurális hálózat alapú modellekkel rendelkezünk, amelyek képesek elfogadható feliratokat generálni különböző nyelvpárok számára. Az „elfogadható” azt jelenti, hogy bizonyosan nem alkalmasak nagyobb hollywoodi produkciókhoz, de felhasználhatók arra a hatalmas mennyiségű audiovizuális anyagra, amely egyébként a nyelvi akadályok és a fordításhoz szükséges erőforrások hiánya miatt örökre elérhetetlen maradna. Néha a modelljeink még mindig követnek el hibákat, még vicceseket is, de jó úton járunk: modelleket készítünk bizonyos nyelveken, és az eredmények elegendőek ahhoz, hogy közvetítsék az elhangzottak jelentését, és ha lehetséges, alkalmasak a manuális felülvizsgálatokra - sokkal jobbak, mint a semmiből indulni!

MR: Nagyszerűen hangzik - mik a következő kihívások, amelyekkel akkor szembe kell néznünk?

MC: Hármat említenék.

Az első a rendszerek automatikus értékelésére vonatkozik. Jelenleg értékeléseink számos mérőszámra tagolódnak, hogy a modelleket az egyes fennálló korlátok alapján értékeljük. Ezeknek az ítéleteknek egyetlen pontszámba való összevonása továbbra is összetett probléma, és az egyik legfontosabb kutatási érdeklődésem a közeljövőben.

A második a nyelvi lefedettség: Ma már nagyon korlátozott számú nyelvpárral tudunk foglalkozni, többnyire angol-központúak. A világon azonban több mint 7000 nyelv létezik, és a legtöbbjük számára nincsenek adatok, sem számítógépes eszközök és modellek.

A harmadik kihívás a környezetvédelem. A mai mesterséges intelligencia nagy dolgokra képes, de az úgynevezett alapmodellek energiaköltségei, amelyek hatalmas számítási erőforrásoktól függenek, rendkívül magasak. Még mindig sok a tennivaló, de az olyan projektek, mint az AI4Culture lehetőséget adnak arra, hogy megosszuk munkánkat a világgal, és közösen előrelépjünk a területen.

MR: Köszönjük a betekintést ebbe a kihívásokkal teli és izgalmas kutatási területbe. Mostantól egészen más és sokkal tudatosabb nézőpontból élvezhetjük a feliratokat!

Tudjon meg többet

A nyár folyamán a fent bemutatott automatikus feliratozó csővezetéket egy nyílt forráskódú és felhasználóbarát automatikus feliratozó eszközbe integrálják. Lehetővé teszi a kulturális örökséget ápoló intézmények számára, hogy audiovizuális anyagaikhoz automatikusan nyolc nyelvű feliratokat hozzanak létre, lehetővé téve azok manuális szerkesztését és érvényesítését is.

2024 szeptemberében az AI4Culture egy olyan platformot is elindít, ahol a nyílt eszközöket – például az automatikus feliratozási eszközt – a kapcsolódó dokumentációval és képzési anyagokkal együtt online elérhetővé teszik.

Tartsa szemmel az Europeana Pro projektoldalát a további részletekért, és tartsa a kapcsolatot a projekt LinkedIn és X fiókjával! Egyelőre mindenki, aki érdeklődik az automatikus feliratozási csővezeték telepítése iránt, felfedezheti a GitHub-on elérhető nyílt forráskódot.

Találkozások a mesterséges intelligenciával: Interjú az automatikus feliratozásról

Megosztás

Tudjon meg többet

Fedezze fel a kapcsolódó tartalmakat