Марко Рендина: Да започнем от самото начало. Можете ли да ни дадете определение за субтитри?
Мауро Четоло: Разбира се, че е така. Субтитрите са кратки парчета текст, които обикновено се появяват в долната част на екрана. Много, ако не всички от нас, са виждали субтитри поне веднъж в живота си, например, когато гледат филм на език, който не говорим. Те разширяват достъпността на аудио-визуалното съдържание до хора, които или не знаят езика, на който се говори, или по различни причини не могат да слушат аудиото.
МР: А, разбира се, така че субтитрите са преводи на това, което се казва?
MC: Всъщност има различни видове субтитри. В допълнение към субтитрите, представящи на потребителите действителни преводи на казаното, има субтитриране на същия език като речта, както и по-богата форма на субтитриране, която включва описание на звуците, което прави съдържанието по-достъпно.
МР: Върху какъв вид субтитриране работи проектът AI4Culture?
Фокусираме се върху междуезиковото субтитриране, следвайки мечтата си да направим видеосъдържанието достъпно чрез Europeana.eu на различни езици за все по-разнообразна аудитория. Това е активна и предизвикателна линия на изследване, която през последните години е свидетел на появата на различни автоматични подходи. Те включват т.нар. „каскадни“ подходи, при които задачата се решава чрез набор от отделни компоненти на ИИ за аудио сегментиране, транскрипция на речта, превод на текст и темпоризация. Той също така включва нови решения, при които задачата се изпълнява от един невронен модел, предназначен да изпълни всички стъпки на процеса.
МР: Какви предизвикателства поставя разработването на автоматични подходи за субтитриране?
MC: Междуезиковото субтитриране не е просто превод. Това е многостранна задача, усложнена от необходимостта да се балансират много аспекти едновременно.
Започваме от аудио вход: сам по себе си този аспект, разгледан изолирано, представлява предизвикателство в една изследователска област, която днес е много активна, известна като „превод на реч“. Помислете например за факта, че думите в писмения текст са ограничени от пространства, докато в аудио речта достига до нас като непрекъснат поток, в който често думите стават предизвикателни, за да се разграничат един от друг.
Ако добавим към това факта, че изречените думи достигат до нас изкривени от определени акценти, произношение, колебания, с намесата на музика и фонови шумове или с объркването, причинено от припокриването на множество говорители, можем да си представим трудностите, пред които е изправена една машина, софтуерен модел в привидно проста задача като превода на реч.
МР: Сега разбираме защо сте определили субтитрирането като многостранна задача! Какво още го затруднява?
MC: Е - видът превод, изискван от субтитрирането, е типичен пример за това, което наричаме ограничен превод. Доброто субтитриране трябва да отговаря на специфични изисквания, трябва да бъде минимално инвазивно. За да бъдат лесни за ползване, субтитрите трябва да свеждат до минимум когнитивното натоварване, необходимо на потребителя, за да чете текста, докато гледа съдържанието. По този начин човек може да се наслаждава на видеосъдържанието без разсейване и преди всичко без прекомерни усилия поради четене.
МР: На какви ограничения трябва да отговаря субтитрите, за да не бъдат инвазивни?
MC: Ограниченията са времеви, пространствени и синтактични. От времева гледна точка, субтитрите трябва да бъдат перфектно подравнени с видео потока, за да се избегнат ситуации, в които някой говори, но не можем да прочетем това, което казва. От пространствена гледна точка субтитрите трябва да бъдат достатъчно кратки, за да не изискват твърде много време за четене и да намалят движенията на очите (известни като сакади), необходими за четене. И накрая, съществуват синтактични ограничения; разделянето на субтитрите на редове не трябва да разделя съставните части на фразите. Това не са общи принципи: съществуват строги правила, макар и малко по-различни за различните доставчици на съдържание.
МР: Възможно ли е машините да изпълняват тези задачи, които само преди няколко години се смятаха за непостижими?
MC: Отчасти, да, благодарение и на проекти като AI4Culture. Днес имаме невронни мрежови модели, способни да генерират приемливи субтитри за различни езикови двойки. „Приемливи“ означава, че те със сигурност не са подходящи за големи холивудски продукции, но могат да се използват за огромното количество аудио-визуални материали, които в противен случай биха останали завинаги недостъпни поради езикови бариери и липса на ресурси за превод. Понякога нашите модели все още правят грешки, дори забавни, но ние сме на прав път: обучаваме модели на конкретни езици, а резултатите са достатъчни, за да предадат смисъла на казаното и, ако е възможно, са подходящи за ръчни ревизии - много по-добре, отколкото да се започне от нулата!
МР: Звучи страхотно - какви са следващите предизвикателства, пред които ще се изправим тогава?
MC: Ще спомена три.
Първият се отнася до автоматичната оценка на системите. В момента нашите оценки са фрагментирани в множество показатели за оценка на моделите спрямо всяко от действащите ограничения. Комбинирането на тези преценки в един резултат остава сложен проблем, както и един от основните ми изследователски интереси в близко бъдеще.
Вторият е свързан с езиковото покритие: днес сме в състояние да се справим с много ограничен набор от езикови двойки, предимно англоцентрични. Въпреки това, в света има над 7000 езика и за повечето от тях няма данни, нито компютърни инструменти и модели.
Третото предизвикателство е свързано с околната среда. Днешният ИИ е способен да прави велики неща, но енергийните разходи на така наречените базови модели, които зависят от огромни изчислителни ресурси, са изключително високи. Предстои ни още много работа, но проекти като AI4Culture ни дават възможност да споделим работата си със света и заедно да напреднем в тази област.
МР: Благодарим Ви за прозренията в тази предизвикателна и вълнуваща изследователска област. Отсега нататък ще се наслаждаваме на субтитри с напълно различна и много по-осъзната перспектива!
Научете повече
По-късно това лято представеният по-горе тръбопровод за автоматично субтитриране ще бъде интегриран в инструмент за автоматично субтитриране с отворен код и лесен за ползване. Това ще позволи на институциите за културно наследство автоматично да създават субтитри на осем езика за своите аудио-визуални материали, което ще позволи и ръчното им редактиране и валидиране.
През септември 2024 г. AI4Culture ще стартира и платформа, в която отворени инструменти, като например инструментът за автоматично субтитриране, ще бъдат достъпни онлайн, заедно със съответната документация и материали за обучение.
Следете страницата на проекта в Europeana Pro за повече подробности и следете профила на проекта LinkedIn и X! Засега всички, които се интересуват от разгръщането на автоматичния тръбопровод за субтитриране, могат да проучат отворения код, достъпен в GitHub.
