Marco Rendina: Comecemos pelo início. Pode dar-nos uma definição de legendas?
Mauro Cettolo: Claro. As legendas são pequenos pedaços de texto que normalmente aparecem na parte inferior de um ecrã. Muitos, se não todos nós, já viram legendas pelo menos uma vez na vida, por exemplo, quando assistimos a um filme numa língua que não falamos. Alargam a acessibilidade dos conteúdos audiovisuais a pessoas que não conhecem a língua em que são falados ou que, por várias razões, não conseguem ouvir o áudio.
MR: Ah, claro, as legendas são traduções do que está a ser dito?
MC: Na verdade, há diferentes tipos de legendagem. Além de legendas que apresentam aos usuários traduções reais do que está sendo dito, há legendagem na mesma língua que o discurso, bem como uma forma mais rica de legendagem, que inclui a descrição de sons, tornando o conteúdo mais acessível.
MR: Em que tipo de legendagem está a trabalhar o projeto AI4Culture?
Centramo-nos na legendagem translinguística, na sequência do nosso sonho de tornar os conteúdos de vídeo disponíveis através da Europeana.eu acessíveis em todas as línguas a um público cada vez mais diversificado. Esta é uma linha ativa e desafiadora de investigação que nos últimos anos tem visto o surgimento de várias abordagens automáticas. Estas incluem as chamadas abordagens «em cascata», em que a tarefa é abordada através de uma reserva de componentes de IA separados para segmentação áudio, transcrição de voz, tradução de texto e temporização. Também inclui novas soluções, onde a tarefa é realizada por um único modelo neural projetado para executar todas as etapas do processo.
MR: Que desafios coloca o desenvolvimento de abordagens automáticas para a legendagem?
MC: A legendagem translinguística não é uma mera tradução. É uma tarefa multifacetada, tornada mais complicada pela necessidade de equilibrar muitos aspectos simultaneamente.
Partimos da entrada de áudio: este aspeto por si só, considerado isoladamente, apresenta desafios numa área de investigação que é hoje muito ativa, conhecida como Tradução da Fala. Considere-se, por exemplo, o fato de que as palavras no texto escrito são delimitadas por espaços, enquanto na fala de áudio chega-nos como um fluxo contínuo, no qual muitas vezes as palavras se tornam difíceis de distinguir umas das outras.
Se somarmos a isso o fato de que as palavras faladas nos chegam distorcidas por acentos particulares, pronúncia, hesitações, com a interferência da música e ruídos de fundo, ou com a confusão causada pela sobreposição de múltiplos alto-falantes, podemos imaginar as dificuldades que uma máquina, um modelo de software, enfrenta em uma tarefa aparentemente simples como traduzir a fala.
MR: Agora compreendemos porque definiu a legendagem como uma tarefa multifacetada! O que mais torna isto difícil?
MC: Bem - o tipo de tradução exigida pela legendagem é um exemplo típico do que chamamos de tradução restrita. Um bom subtítulo deve atender a requisitos específicos, tem que ser minimamente invasivo. Para serem fáceis de usar, as legendas devem minimizar a carga cognitiva necessária para o utilizador ler o texto enquanto vê o conteúdo. Desta forma, uma pessoa pode desfrutar do conteúdo do vídeo sem distrações e, acima de tudo, sem esforço excessivo devido à leitura.
MR: Que restrições um subtítulo deve cumprir para evitar ser invasivo?
MC: As restrições são temporais, espaciais e sintáticas. De um ponto de vista temporal, as legendas devem estar perfeitamente alinhadas com o fluxo de vídeo, para evitar situações em que alguém está a falar, mas não conseguimos ler o que está a dizer. De um ponto de vista espacial, as legendas devem ser concisas o suficiente para não exigir muito tempo para ler e reduzir os movimentos dos olhos (conhecidos como saccades) necessários para a leitura. Por último, existem restrições sintáticas; a divisão de um subtítulo em linhas não deve separar os constituintes das frases. Estes não são princípios gerais: existem regras rigorosas, embora ligeiramente diferentes entre os fornecedores de conteúdos.
MR: É possível que as máquinas executem estas tarefas que, há apenas alguns anos, eram consideradas inatingíveis?
MC: Em parte, sim, graças também a projetos como o AI4Culture. Hoje temos modelos baseados em redes neurais capazes de gerar legendas aceitáveis para diferentes pares de línguas. «Aceitável» significa que não são certamente adequados para grandes produções de Hollywood, mas utilizáveis para essa enorme quantidade de material audiovisual que, de outro modo, permaneceria para sempre inacessível devido a barreiras linguísticas e à falta de recursos para a tradução. Às vezes as nossas modelos ainda cometem erros, mesmo os engraçados, mas estamos no caminho certo: treinamos modelos em linguagens específicas, e os resultados são suficientes para transmitir o significado do que foi dito e, se possível, são adequados para revisões manuais - muito melhor do que começar do zero!
MR: Soa muito bem - quais são os próximos desafios que iremos enfrentar nessa altura?
MC: Vou referir-me a três.
A primeira diz respeito à avaliação automática dos sistemas. No momento, nossas avaliações estão fragmentadas em uma infinidade de métricas para avaliar modelos contra cada uma das restrições em jogo. Combinar estes julgamentos em uma única pontuação continua a ser um problema complexo, bem como um dos meus principais interesses de investigação no futuro imediato.
A segunda é a da cobertura linguística: Hoje somos capazes de lidar com um conjunto muito limitado de pares de línguas, principalmente centradas no inglês. No entanto, existem mais de 7000 línguas no mundo e, para a maioria delas, não há dados, nem ferramentas e modelos informáticos.
O terceiro desafio é o ambiental. A IA de hoje é capaz de fazer grandes coisas, mas os custos de energia dos chamados modelos de base, que dependem de enormes recursos computacionais, são extremamente altos. Ainda há muito a fazer, mas projetos como o AI4Culture dão-nos a oportunidade de partilhar o nosso trabalho com o mundo e avançar coletivamente no terreno.
MR: Obrigado pelas suas informações sobre esta área de investigação desafiante e emocionante. A partir de agora, vamos desfrutar de legendas com uma perspetiva completamente diferente e muito mais consciente!
Mais informações
No final deste verão, o gasoduto de legendagem automática acima apresentado será integrado numa ferramenta de legendagem automática de código aberto e de fácil utilização. Permitirá que as instituições responsáveis pelo património cultural criem automaticamente legendas em oito línguas para os seus materiais audiovisuais, permitindo também a sua edição e validação manuais.
Em setembro de 2024, a AI4Culture lançará também uma plataforma onde serão disponibilizadas em linha ferramentas abertas, como a ferramenta automática de legendagem, juntamente com documentação e materiais de formação conexos.
Fique de olho na página do projeto no Europeana Pro para obter mais detalhes e fique ligado na conta do projeto LinkedIn e X! Por enquanto, todas as pessoas interessadas em implantar o gasoduto de legendagem automática podem explorar o código-fonte aberto disponível no GitHub.
