Encuentros cercanos con la IA: una entrevista sobre subtitulación automática

Publicado 13 de junio de 2024 por

Marco Rendina (European Fashion Heritage Association)

Mauro Cettolo (Bruno Kessler Foundation)

Marco Rendina: Empecemos desde el principio. ¿Puede darnos una definición de subtítulos?

Mauro Cettolo: Claro que sí. Los subtítulos son fragmentos cortos de texto que suelen aparecer en la parte inferior de una pantalla. Muchos, si no todos, hemos visto subtítulos al menos una vez en nuestras vidas, por ejemplo, cuando vemos una película en un idioma que no hablamos. Extienden la accesibilidad de los contenidos audiovisuales a las personas que no conocen el idioma en el que se hablan o, por diversas razones, no pueden escuchar el audio.

RM: Ah, por supuesto, ¿así que los subtítulos son traducciones de lo que se dice?

MC: En realidad, hay diferentes tipos de subtitulado. Además de los subtítulos que presentan a los usuarios traducciones reales de lo que se dice, hay subtitulado en el mismo idioma que el discurso, así como una forma más rica de subtitulado, que incluye la descripción de los sonidos, haciendo que el contenido sea más accesible.

RM: ¿En qué tipo de subtitulado está trabajando el proyecto AI4Culture?

Nos estamos centrando en el subtitulado interlingüístico, siguiendo nuestro sueño de hacer que el contenido de vídeo esté disponible a través de Europeana.eu y sea accesible en todas las lenguas a un público cada vez más diverso. Esta es una línea de investigación activa y desafiante que en los últimos años ha visto la aparición de varios enfoques automáticos. Estos incluyen los denominados enfoques «en cascada», en los que la tarea se aborda mediante una serie de componentes de IA separados para la segmentación de audio, la transcripción del habla, la traducción de textos y la temporización. También incluye soluciones novedosas, donde la tarea es realizada por un único modelo neuronal diseñado para ejecutar todos los pasos del proceso.

RM: ¿Qué desafíos plantea el desarrollo de enfoques automáticos para el subtitulado?

MC: El subtitulado interlingüístico no es una mera traducción. Es una tarea multifacética, que se complica por la necesidad de equilibrar muchos aspectos simultáneamente.

Partimos de la entrada de audio: Este aspecto por sí solo, tomado de forma aislada, presenta desafíos en un área de investigación que es muy activa hoy en día, conocida como traducción del habla. Considere, por ejemplo, el hecho de que las palabras en el texto escrito están delimitadas por espacios, mientras que en el habla de audio nos llega como un flujo continuo, en el que a menudo las palabras se vuelven difíciles de distinguir entre sí.

Si a esto añadimos el hecho de que las palabras habladas nos llegan distorsionadas por acentos particulares, pronunciación, vacilaciones, con la interferencia de la música y los ruidos de fondo, o con la confusión causada por la superposición de múltiples altavoces, podemos imaginar las dificultades que enfrenta una máquina, un modelo de software, en una tarea aparentemente simple como traducir el habla.

RM: ¡Ahora entendemos por qué definió el subtitulado como una tarea multifacética! ¿Qué más lo hace difícil?

MC: Bueno, el tipo de traducción requerida por el subtitulado es un ejemplo típico de lo que llamamos traducción restringida. Un buen subtítulo debe cumplir con requisitos específicos, tiene que ser mínimamente invasivo. Para que sean fáciles de usar, los subtítulos deben minimizar la carga cognitiva requerida para que el usuario lea el texto mientras ve el contenido. De esta manera, una persona puede disfrutar del contenido del video sin distracciones y, sobre todo, sin un esfuerzo excesivo debido a la lectura.

RM: ¿Qué restricciones debe cumplir un subtítulo para evitar ser invasivo?

MC: Las restricciones son temporales, espaciales y sintácticas. Desde un punto de vista temporal, los subtítulos deben estar perfectamente alineados con el flujo de video, para evitar situaciones en las que alguien está hablando pero no podemos leer lo que están diciendo. Desde un punto de vista espacial, los subtítulos deben ser lo suficientemente concisos como para no requerir demasiado tiempo para leer y reducir los movimientos oculares (conocidos como sacádicos) necesarios para la lectura. Por último, existen limitaciones sintácticas; la división de un subtítulo en líneas no debe separar los componentes de las frases. Estos no son principios generales: existen normas estrictas, aunque ligeramente diferentes entre los proveedores de contenidos.

RM: ¿Es posible que las máquinas realicen estas tareas que, hace solo unos años, se consideraban inalcanzables?

MC: En parte, sí, gracias también a proyectos como AI4Culture. Hoy tenemos modelos basados en redes neuronales capaces de generar subtítulos aceptables para diferentes pares de idiomas. «Aceptable» significa que ciertamente no son adecuados para las principales producciones de Hollywood, pero sí para esa enorme cantidad de material audiovisual que de otro modo permanecería inaccesible para siempre debido a las barreras lingüísticas y la falta de recursos para la traducción. A veces nuestros modelos siguen cometiendo errores, incluso divertidos, pero estamos en el camino correcto: Entrenamos modelos en idiomas específicos, y los resultados son suficientes para transmitir el significado de lo que se dijo y, si es posible, son adecuados para revisiones manuales, ¡mucho mejor que comenzar desde cero!

RM: Suena genial, ¿cuáles son los próximos desafíos que enfrentaremos entonces?

MC: Mencionaré tres.

La primera se refiere a la evaluación automática de los sistemas. Por el momento, nuestras evaluaciones están fragmentadas en una multitud de métricas para evaluar los modelos frente a cada una de las limitaciones en juego. Combinar estos juicios en una sola puntuación sigue siendo un problema complejo, así como uno de mis principales intereses de investigación en el futuro inmediato.

El segundo es el de la cobertura lingüística: Hoy en día somos capaces de tratar con un conjunto muy limitado de pares de idiomas, en su mayoría centrados en el inglés. Sin embargo, hay más de 7.000 idiomas en el mundo y, para la mayoría de ellos, no hay datos, ni herramientas y modelos informáticos.

El tercer desafío es el medio ambiente. La IA de hoy es capaz de hacer grandes cosas, pero los costos de energía de los llamados modelos básicos, que dependen de enormes recursos computacionales, son extremadamente altos. Todavía queda mucho por hacer, pero proyectos como AI4Culture nos dan la oportunidad de compartir nuestro trabajo con el mundo y avanzar colectivamente en el campo.

RM: Gracias por sus ideas sobre esta desafiante y emocionante área de investigación. ¡A partir de ahora, disfrutaremos de subtítulos con una perspectiva completamente diferente y mucho más consciente!

Descubre más

A finales de este verano, el canal de subtitulado automático presentado anteriormente se integrará en una herramienta de subtitulado automático de código abierto y fácil de usar. Permitirá a las instituciones de patrimonio cultural crear automáticamente subtítulos en ocho idiomas para sus materiales audiovisuales, lo que también permitirá su edición y validación manuales.

En septiembre de 2024, AI4Culture también pondrá en marcha una plataforma en la que se pondrán a disposición en línea herramientas abiertas, como la herramienta de subtitulado automático, junto con la documentación y los materiales de formación conexos.

¡Manténgase atento a la página del proyecto en Europeana Pro para obtener más detalles y esté atento a la cuenta del proyecto LinkedIn y X! Por ahora, todas las personas interesadas en implementar la canalización de subtitulado automático pueden explorar el código de código abierto disponible en GitHub.

Encuentros cercanos con la IA: una entrevista sobre subtitulación automática

Compartir

Descubre más

Descubre contenido relacionado