Explore o conjunto de ferramentas de áudio SHIFT para o património cultural

Publicado 15 de maio de 2025 por

Maria Kagkelidou (Heritage Management Organisation)

O SHIFT é um projeto financiado pelo programa Horizonte Europa da UE para desenvolver conjuntos de ferramentas especializadas adaptadas aos diferentes aspetos da participação no património cultural. O primeiro a ser revelado é o Conjunto de Ferramentas de Áudio SHIFT, que é pioneiro na síntese de voz impulsionada pela IA, no discurso motivado pela emoção, na acessibilidade multilingue e em paisagens sonoras imersivas.

Criado pelo consórcio SHIFT com audEERING a assumir a liderança, este Toolkit irá aproveitar o poder do texto-para-voz (TTS), reconhecimento de emoções, dobragem de vídeo e geração de paisagens sonoras para criar experiências imersivas que dão vida ao património.

TTS SHIFT: um sistema afetivo e multilingue de conversão de texto em voz

SHIFT TTS é um sistema de texto-voz (uma tecnologia que pode ler em voz alta qualquer texto escrito) que gera alta qualidade, fala emocionalmente expressiva em várias línguas. Ao contrário das ferramentas TTS tradicionais, que soam robóticas, o SHIFT TTS incorpora a síntese da fala afetiva — o que significa que pode expressar emoções como excitação, calma ou solenidade com base no conteúdo que narra.

A ferramenta SHIFT TTS suporta várias línguas, incluindo albanês, húngaro, romeno, sérvio, alemão, grego e inglês, com mais de 200 vozes inglesas afetivas com sotaques nativos e não nativos. O conjunto de ferramentas funciona com legendas ou entrada de texto simples e oferece personalização de voz, permitindo aos utilizadores clonar vozes para narração única e personalizada ou escolher entre as 200 vozes que a ferramenta disponibiliza. Observe a ferramenta utilizada.

A ferramenta TTS pode melhorar a acessibilidade e a participação dos conteúdos do património cultural, por exemplo, acrescentando narrações multilingues e emocionalmente ricas para tornar as exposições mais envolventes para diversos públicos. Além disso, a ferramenta fornece um recurso para os visitantes com deficiência visual, oferecendo conteúdos acessíveis sob a forma de descrições áudio pormenorizadas. Pode transformar documentos históricos em experiências de narração de histórias de áudio envolventes, permitindo aos utilizadores uma experiência histórica imersiva.

Dobragem de vídeo ou narração imagem-voz

Museus e instituições culturais muitas vezes dependem de vídeos para educar e envolver os visitantes. No entanto, criar versões multilingues ou narrar imagens silenciosas pode ser um desafio. O sistema SHIFT TTS oferece uma funcionalidade perfeita para dublagem de vídeo e a geração de vídeos narrados a partir de imagens.

Uma das principais características da funcionalidade de dobragem de vídeo permite aos utilizadores substituir a voz original num vídeo por um discurso gerado por IA (até clonar a voz de figuras históricas), preservando cuidadosamente o tom emocional do conteúdo. O sistema também se destaca na vocalização de imagens silenciosas, convertendo imagens fixas através de descrições de texto em vídeos narrados, tornando o conteúdo visual mais acessível e envolvente para diversos públicos. Ver um exemplo.

A dublagem de vídeo e as funcionalidades de narração imagem-voz permitem aos museus criar versões multilingues do seu conteúdo de vídeo, alargando a acessibilidade para o público internacional. Estas ferramentas podem ser utilizadas para adicionar narração a obras de arte e artefactos históricos em exposições digitais, proporcionando narrativas mais ricas e envolventes que melhoram a experiência do visitante. Ao integrar locuções geradas por IA, a ferramenta SHIFT TTS pode tornar as experiências dos museus em linha mais interativas e acessíveis, em especial para aqueles que podem ter deficiências visuais ou preferir conteúdos áudio.

Clonagem vocal para narração personalizada

Uma das características mais inovadoras do SHIFT TTS é a sua capacidade de clonagem vocal, que permite aos utilizadores reproduzir a voz de um orador para narração. Esta característica é particularmente útil para preservar as vozes de figuras históricas ou narradores, oferecendo uma forma única e autêntica de dar vida à história.

Os utilizadores podem carregar uma pequena amostra áudio e o SHIFT TTS gerará um discurso que imita a voz da pessoa. Isso garante que a voz clonada retenha emoções autênticas e características de fala, criando uma experiência mais realista e envolvente. O recurso de clonagem de voz abre possibilidades para contar histórias personalizadas, particularmente para exposições históricas, onde figuras como Andy Warhol ou Salvador Dalí poderiam ter suas vozes clonadas para narrar suas próprias histórias, oferecendo uma conexão mais profunda com o conteúdo.

A clonagem de voz permite a recriação de gravações históricas perdidas ou incompletas, trazendo vozes há muito perdidas de volta à vida para o público experimentar. Os curadores de museus, criadores de conteúdos e outros também podem beneficiar desta funcionalidade ao utilizarem as suas próprias vozes para narrações, assegurando um toque consistente e pessoal aos guias áudio, exposições e outros tipos de conteúdos.

Paisagens sonoras geradas pela IA para contar histórias imersivas

Para criar experiências totalmente imersivas, a SHIFT testou a integração do AudioGen, uma ferramenta de IA que gera paisagens sonoras realistas a partir de descrições de texto. Esta funcionalidade permite a adição de sons de fundo ambientais ou ambientais às exposições, enriquecendo-as com paisagens sonoras personalizadas que correspondem ao período de tempo específico ou à configuração descrita na exposição. Mercados antigos, campos de batalha ou espaços sagrados podem ser trazidos à vida com sons de fundo autênticos e adequados à era, adicionando uma camada sensorial à narrativa que aprofunda a ligação dos visitantes com a história. A ferramenta funciona em várias línguas, garantindo a sua acessibilidade a públicos internacionais e reforçando a participação intercultural. Veja-o em ação com a imagem principal desta peça abaixo!

Este recurso também pode ser altamente eficaz em visitas a museus de realidade virtual (VR) e realidade aumentada (AR), onde o áudio imersivo pode melhorar significativamente a sensação de presença e realismo. As paisagens sonoras também podem melhorar a acessibilidade para os visitantes com deficiência visual, oferecendo descrições áudio detalhadas de cenários e eventos históricos.

Por que razão estas ferramentas são importantes para os profissionais do património cultural

Espera-se cada vez mais que os museus e as instituições culturais envolvam públicos globais, multilingues e diversificados. No entanto, a criação de conteúdo imersivo requer tempo, recursos e experiência que muitas instituições não têm.

O conjunto de ferramentas de áudio SHIFT apoia a acessibilidade, fornecendo descrições áudio cativantes para visitantes com deficiência visual e narração multilingue para um leque diversificado de públicos, assegurando que todos possam interagir com o conteúdo. Também aumenta o envolvimento ao utilizar discursos afetivos e paisagens sonoras impulsionados pela IA para mergulhar o público na história e na cultura, criando uma experiência cativante.

Mais informações

Todas as ferramentas do conjunto de ferramentas de áudio SHIFT estarão disponíveis sob o mesmo teto na plataforma SHIFT, que está atualmente em desenvolvimento. Esta plataforma irá oferecer fácil acesso a todas as ferramentas SHIFT, incluindo o sistema Text-to-Speech, dobragem de vídeo, geração de som e muito mais.

Para manter-se atualizado sobre os últimos desenvolvimentos, novos recursos e o lançamento oficial da plataforma SHIFT, visite o site da SHIFT e inscreva-se na newsletter da SHIFT para receber atualizações oportunas, dicas e anúncios diretamente na sua caixa de entrada.

Este post foi escrito por Dionyssos Kounadis-Bastian, Investigador Sénior de IA, audEERING GmbH e Maria Kagkelidou, Gestora de Comunicação, The Heritage Management Organization.