Marco Rendina: Commençons par le début. Pouvez-vous nous donner une définition des sous-titres?
Mauro Cettolo: Bien sûr. Les sous-titres sont de courts morceaux de texte qui apparaissent généralement au bas d'un écran. Beaucoup d'entre nous, sinon tous, ont vu des sous-titres au moins une fois dans notre vie, par exemple, en regardant un film dans une langue que nous ne parlons pas. Ils étendent l'accessibilité du contenu audiovisuel aux personnes qui ne connaissent pas la langue dans laquelle il est parlé ou qui, pour diverses raisons, ne peuvent pas écouter l'audio.
MR : Ah, bien sûr, donc les sous-titres sont des traductions de ce qui est dit?
MC : En fait, il existe différents types de sous-titrage. En plus des sous-titres présentant aux utilisateurs des traductions réelles de ce qui est dit, il y a le sous-titrage dans la même langue que le discours, ainsi qu'une forme plus riche de sous-titrage, qui comprend la description des sons, rendant le contenu plus accessible.
MR : Sur quel type de sous-titrage travaille le projet AI4Culture?
Nous nous concentrons sur le sous-titrage multilingue, à la suite de notre rêve de rendre le contenu vidéo disponible via Europeana.eu accessible dans toutes les langues à un public de plus en plus diversifié. Il s'agit d'une ligne de recherche active et stimulante qui, ces dernières années, a vu l'émergence de diverses approches automatiques. Il s’agit notamment des approches dites «en cascade», dans lesquelles la tâche est traitée par une réserve de composants d’IA distincts pour la segmentation audio, la transcription vocale, la traduction de texte et la temporisation. Il comprend également de nouvelles solutions, où la tâche est effectuée par un seul modèle neuronal conçu pour exécuter toutes les étapes du processus.
MR : Quels sont les défis que pose le développement d'approches automatiques pour le sous-titrage?
MC : Le sous-titrage multilingue n'est pas une simple traduction. Il s'agit d'une tâche à multiples facettes, rendue plus compliquée par la nécessité d'équilibrer simultanément de nombreux aspects.
Nous partons de l'entrée audio: ce seul aspect, pris isolément, présente des défis dans un domaine de recherche qui est très actif aujourd'hui, connu sous le nom de traduction vocale. Considérons, par exemple, le fait que les mots dans le texte écrit sont délimités par des espaces, tandis que dans la parole audio nous parvient comme un flux continu, dans lequel les mots deviennent souvent difficiles à distinguer les uns des autres.
Si nous ajoutons à cela le fait que les mots parlés nous parviennent déformés par des accents particuliers, la prononciation, les hésitations, avec l'interférence de la musique et des bruits de fond, ou avec la confusion causée par le chevauchement de plusieurs haut-parleurs, nous pouvons imaginer les difficultés auxquelles une machine, un modèle logiciel, fait face dans une tâche apparemment simple comme la traduction de la parole.
MR : Maintenant, nous comprenons pourquoi vous avez défini le sous-titrage comme une tâche à multiples facettes! Qu'est-ce qui rend les choses difficiles?
MC : Eh bien - le type de traduction requis par le sous-titrage est un exemple typique de ce que nous appelons la traduction contrainte. Un bon sous-titre doit répondre à des exigences spécifiques, il doit être peu invasif. Pour être convivial, les sous-titres doivent minimiser la charge cognitive requise pour que l'utilisateur lise le texte tout en regardant le contenu. De cette façon, une personne peut profiter du contenu vidéo sans distractions et, surtout, sans effort excessif dû à la lecture.
MR : Quelles contraintes un sous-titre doit-il rencontrer pour éviter d'être invasif?
MC : Les contraintes sont temporelles, spatiales et syntaxiques. D'un point de vue temporel, les sous-titres doivent être parfaitement alignés avec le flux vidéo, afin d'éviter les situations où quelqu'un parle mais où l'on ne peut pas lire ce qu'il dit. D'un point de vue spatial, les sous-titres doivent être suffisamment concis pour ne pas nécessiter trop de temps pour lire et réduire les mouvements oculaires (appelés saccades) nécessaires à la lecture. Enfin, il existe des contraintes syntaxiques; la scission d'un sous-titre en lignes ne doit pas séparer les constituants des phrases. Il ne s'agit pas de principes généraux: il existe des règles strictes, bien que légèrement différentes selon les fournisseurs de contenu.
MR : Est-il possible pour les machines d'effectuer ces tâches qui, il y a quelques années à peine, étaient considérées comme irréalisables?
MC : En partie, oui, grâce aussi à des projets comme AI4Culture. Aujourd'hui, nous avons des modèles basés sur des réseaux neuronaux capables de générer des sous-titres acceptables pour différentes paires de langues. «Acceptables» signifie qu’ils ne sont certainement pas adaptés aux grandes productions hollywoodiennes, mais utilisables pour cette énorme quantité de matériel audiovisuel qui, autrement, resterait à jamais inaccessible en raison des barrières linguistiques et du manque de ressources pour la traduction. Parfois, nos modèles font encore des erreurs, même drôles, mais nous sommes sur la bonne voie: Nous formons des modèles sur des langues spécifiques, et les résultats sont suffisants pour transmettre le sens de ce qui a été dit et, si possible, conviennent aux révisions manuelles - bien mieux que de partir de zéro!
MR : Cela semble génial - quels sont les prochains défis auxquels nous serons confrontés?
MC : J'en mentionnerai trois.
La première concerne l'évaluation automatique des systèmes. À l'heure actuelle, nos évaluations sont fragmentées en une multitude de métriques pour évaluer les modèles par rapport à chacune des contraintes en jeu. Combiner ces jugements en un seul score reste un problème complexe, ainsi que l'un de mes principaux intérêts de recherche dans un avenir immédiat.
Le second est celui de la couverture linguistique: Aujourd'hui, nous sommes en mesure de faire face à un ensemble très limité de paires de langues, principalement centrées sur l'anglais. Cependant, il existe plus de 7 000 langues dans le monde et, pour la plupart d'entre elles, il n'y a pas de données, ni d'outils et de modèles informatiques.
Le troisième défi est environnemental. L'IA d'aujourd'hui est capable de faire de grandes choses, mais les coûts énergétiques des modèles dits de fondation, qui dépendent d'énormes ressources informatiques, sont extrêmement élevés. Encore beaucoup à faire, mais des projets comme AI4Culture nous donnent la chance de partager notre travail avec le monde et de progresser collectivement sur le terrain.
MR : Merci pour vos idées sur ce domaine de recherche stimulant et passionnant. À partir de maintenant, nous allons profiter des sous-titres avec une perspective complètement différente et beaucoup plus consciente!
En savoir plus
Plus tard cet été, le pipeline de sous-titrage automatique présenté ci-dessus sera intégré dans un outil de sous-titrage automatique open source et convivial. Il permettra aux institutions du patrimoine culturel de créer automatiquement des sous-titres en huit langues pour leur matériel audiovisuel, ce qui permettra également leur édition et leur validation manuelles.
En septembre 2024, AI4Culture lancera également une plateforme où des outils ouverts, tels que l’outil de sous-titrage automatique, seront mis à disposition en ligne, ainsi que la documentation et le matériel de formation connexes.
Gardez un œil sur la page du projet sur Europeana Pro pour plus de détails et restez à l'écoute sur le compte LinkedIn et X du projet! Pour l'instant, toutes les personnes intéressées par le déploiement du pipeline de sous-titrage automatique peuvent explorer le code open source disponible sur GitHub.
