Marco Rendina: Ejja nibdew mill-bidu. Tista 'tagħtina definizzjoni ta' sottotitli?
Mauro Cettolo: Żgur. Is-sottotitoli huma biċċiet qosra ta 'test li ġeneralment jidhru fil-qiegħ ta' skrin. Ħafna, jekk mhux kollha kemm aħna, rajna sottotitoli mill-inqas darba f'ħajjitna, pereżempju, meta naraw film b'lingwa li ma nitkellmux. Huma jestendu l-aċċessibbiltà tal-kontenut awdjoviżiv għal persuni li jew ma jafux il-lingwa li biha huwa mitkellem jew, għal diversi raġunijiet, ma jistgħux jisimgħu l-awdjo.
MR: Ah, naturalment, hekk sottotitli huma traduzzjonijiet ta 'dak li qed jingħad?
MC: Fil-fatt, hemm tipi differenti ta’ sottotitoli. Minbarra s-sottotitoli li jippreżentaw lill-utenti bi traduzzjonijiet reali ta’ dak li qed jingħad, hemm sottotitoli bl-istess lingwa bħad-diskors, kif ukoll forma aktar rikka ta’ sottotitoli, li tinkludi d-deskrizzjoni tal-ħsejjes, li tagħmel il-kontenut aktar aċċessibbli.
MR: X’tip ta’ sottotitolar qed jaħdem fuqu l-proġett AI4Culture?
Qed niffukaw fuq is-sottotitolar multilingwi, wara l-ħolma tagħna li nagħmlu l-kontenut tal-vidjo disponibbli permezz ta’ Europeana.eu aċċessibbli bil-lingwi kollha għal udjenza dejjem aktar diversa. Din hija linja ta 'riċerka attiva u ta' sfida li f'dawn l-aħħar snin rat il-ħolqien ta 'diversi approċċi awtomatiċi. Dawn jinkludu l-hekk imsejħa approċċi “kaskata”, fejn il-kompitu jiġi indirizzat permezz ta’ sensiela ta’ komponenti separati tal-IA għas-segmentazzjoni tal-awdjo, it-traskrizzjoni tad-diskors, it-traduzzjoni tat-test u t-temporanjetà. Jinkludi wkoll soluzzjonijiet ġodda, fejn il-kompitu jitwettaq minn mudell newrali uniku mfassal biex jeżegwixxi l-passi kollha tal-proċess.
MR: X’inhuma l-isfidi li joħloq l-iżvilupp ta’ approċċi awtomatiċi għas-sottotitoli?
MC: Is-sottotitoli translingwistiċi mhumiex sempliċi traduzzjoni. Huwa kompitu multidimensjonali, magħmul aktar ikkumplikat mill-ħtieġa li jiġu bbilanċjati ħafna aspetti simultanjament.
Nibdew mill-input tal-awdjo: dan l-aspett waħdu, meħud waħdu, jippreżenta sfidi f’qasam ta’ riċerka li huwa attiv ħafna llum, magħruf bħala Traduzzjoni tad-Diskors. Ikkunsidra, pereżempju, il-fatt li l-kliem fit-test miktub huma delimitati mill-ispazji, filwaqt li fid-diskors awdjo jilħaqna bħala nixxiegħa kontinwa, li fiha ħafna drabi l-kliem isiru ta 'sfida biex jiddistingwu minn xulxin.
Jekk inżidu ma 'dan il-fatt li l-kliem mitkellem jilħaqna mgħawġa minn aċċenti, pronunzja, eżitazzjonijiet partikolari, bl-interferenza tal-ħsejjes tal-mużika u tal-isfond, jew bil-konfużjoni kkawżata mit-trikkib ta' kelliema multipli, nistgħu nimmaġinaw id-diffikultajiet li magna, mudell ta 'softwer, tiffaċċja f'kompitu apparentement sempliċi bħat-traduzzjoni tad-diskors.
MR: Issa nifhmu għaliex iddefinixxejt is-sottotitoli bħala kompitu multidimensjonali! X'iktar jagħmilha diffiċli?
MC: Ukoll - it-tip ta 'traduzzjoni meħtieġa mis-sottotitolar huwa eżempju tipiku ta' dak li nsejħu traduzzjoni ristretta. Sottotitolu tajjeb għandu jissodisfa rekwiżiti speċifiċi, għandu jkun minimament invażiv. Biex ikunu faċli għall-utent, is-sottotitoli għandhom jimminimizzaw it-tagħbija konjittiva meħtieġa għall-utent biex jaqra t-test waqt li jara l-kontenut. B'dan il-mod, persuna tista 'tgawdi l-kontenut tal-vidjow mingħajr distrazzjonijiet u, fuq kollox, mingħajr sforz eċċessiv minħabba l-qari.
MR: X’restrizzjonijiet għandu jiltaqa’ sottotitolu biex jevita li jkun invażiv?
MC: Il-limitazzjonijiet huma temporali, spazjali u sintattiċi. Minn perspettiva temporali, is-sottotitoli għandhom ikunu allinjati perfettament mal-fluss tal-vidjo, biex jiġu evitati sitwazzjonijiet fejn xi ħadd ikun qed jitkellem iżda ma nistgħux naqraw dak li qed jgħidu. Mil-lat spazjali, is-sottotitoli għandhom ikunu konċiżi biżżejjed biex ma jeħtiġux wisq ħin biex jaqraw u jnaqqsu l-movimenti tal-għajnejn (magħrufa bħala saccades) meħtieġa għall-qari. Fl-aħħar nett, hemm restrizzjonijiet sintattiċi; il-qsim ta' sottotitolu f'linji m'għandux jissepara l-kostitwenti tal-frażijiet. Dawn mhumiex prinċipji ġenerali: hemm regoli stretti, għalkemm kemxejn differenti fost il-fornituri tal-kontenut.
MR: Huwa possibbli għall-magni li jwettqu dawn il-kompiti li, ftit snin ilu biss, kienu kkunsidrati li ma jistgħux jintlaħqu?
MC: Parzjalment, iva, grazzi wkoll għal proġetti bħal AI4Culture. Illum għandna mudelli newrali bbażati fuq in-netwerk li kapaċi jiġġeneraw sottotitoli aċċettabbli għal pari ta' lingwi differenti. “Aċċettabbli” tfisser li ċertament mhumiex adattati għal produzzjonijiet kbar ta’ Hollywood, iżda jistgħu jintużaw għal dak l-ammont enormi ta’ materjal awdjoviżiv li altrimenti jibqa’ inaċċessibbli għal dejjem minħabba ostakli lingwistiċi u nuqqas ta’ riżorsi għat-traduzzjoni. Kultant il-mudelli tagħna għadhom jagħmlu żbalji, anke dawk umoristiċi, iżda ninsabu fit-triq it-tajba: Aħna nħarrġu mudelli fuq lingwi speċifiċi, u r-riżultati huma biżżejjed biex iwasslu t-tifsira ta 'dak li ntqal u, jekk possibbli, huma adattati għal reviżjonijiet manwali - mod aħjar milli tibda mill-bidu!
MR: Ħsejjes kbar - x'inhuma l-isfidi li jmiss li se niffaċċjaw dak iż-żmien?
MC: Se nsemmi tlieta.
L-ewwel waħda tikkonċerna l-evalwazzjoni awtomatika tas-sistemi. Bħalissa, l-evalwazzjonijiet tagħna huma frammentati f’għadd kbir ta’ metriċi biex nivvalutaw il-mudelli skont kull waħda mir-restrizzjonijiet involuti. Il-kombinazzjoni ta’ dawn is-sentenzi f’punteġġ wieħed tibqa’ problema kumplessa, kif ukoll waħda mill-interessi ta’ riċerka ewlenin tiegħi fil-futur immedjat.
It-tieni waħda hija dik tal-kopertura lingwistika: illum nistgħu nittrattaw sett limitat ħafna ta 'pari ta' lingwi, l-aktar iċċentrati fuq l-Ingliż. Madankollu, hemm aktar minn 7,000 lingwa fid-dinja u, għal ħafna minnhom, m'hemm l-ebda data, u lanqas għodod u mudelli tal-kompjuter.
It-tielet sfida hija l-ambjent. L-IA tal-lum hija kapaċi tagħmel affarijiet kbar, iżda l-ispejjeż tal-enerġija tal-hekk imsejħa mudelli bażi, li jiddependu fuq riżorsi komputazzjonali enormi, huma estremament għoljin. Għad fadal ħafna xi jsir, iżda proġetti bħal AI4Culture jagħtuna ċ-ċans li naqsmu x-xogħol tagħna mad-dinja u navvanzaw b'mod kollettiv fil-qasam.
MR: Grazzi għall-għarfien tiegħek f'dan il-qasam ta 'riċerka ta' sfida u eċċitanti. Minn issa 'l quddiem, se ngawdu sottotitoli b'perspettiva kompletament differenti u ħafna aktar konxja!
Skopri aktar
Aktar tard dan is-sajf, il-pipeline tas-sottotitolar awtomatiku ppreżentat hawn fuq se jiġi integrat f’għodda ta’ sottotitolar awtomatiku b’sors miftuħ u faċli għall-utent. Dan se jippermetti lill-istituzzjonijiet tal-wirt kulturali joħolqu awtomatikament sottotitoli fi tmien lingwi għall-materjali awdjoviżivi tagħhom li jippermettu wkoll l-editjar u l-validazzjoni manwali tagħhom.
F’Settembru 2024, l-AI4Culture se tniedi wkoll pjattaforma fejn għodod miftuħa, bħall-għodda awtomatika tas-sottotitoli, se jkunu disponibbli online, flimkien ma’ dokumentazzjoni u materjali ta’ taħriġ relatati.
Żomm għajnejk fuq il-paġna tal-proġett fuq Europeana Pro għal aktar dettalji u ibqa’ aġġornat dwar il-proġett LinkedIn u l-kont X! Għalissa, in-nies kollha interessati li jużaw il-pipeline tas-sottotitolar awtomatiku jistgħu jesploraw il-kodiċi tas-sors miftuħ disponibbli fuq GitHub.
