SHIFT est un projet financé par le programme Horizon Europe de l’UE visant à développer des boîtes à outils spécialisées adaptées aux différents aspects de l’engagement en faveur du patrimoine culturel. Le premier à être dévoilé est le SHIFT Audio Toolkit, pionnier de la synthèse vocale alimentée par l'IA, de la parole axée sur les émotions, de l'accessibilité multilingue et des paysages sonores immersifs.
Créée par le consortium SHIFT avec audEERING en tête, cette boîte à outils exploitera la puissance du text-to-speech (TTS), de la reconnaissance des émotions, du doublage vidéo et de la génération de paysages sonores pour créer des expériences immersives qui donnent vie au patrimoine.
NIVEAUX D'EXPÉDITION: un système affectif et multilingue de synthèse vocale
SHIFT TTS est un système de synthèse vocale (une technologie qui peut lire à haute voix n'importe quel texte écrit) qui génère un discours de haute qualité et émotionnellement expressif dans plusieurs langues. Contrairement aux outils TTS traditionnels, qui sonnent robotiques, SHIFT TTS intègre la synthèse de la parole affective, ce qui signifie qu’il peut exprimer des émotions telles que l’excitation, le calme ou la solennité en fonction du contenu qu’il raconte.
L'outil SHIFT TTS prend en charge plusieurs langues, y compris l'albanais, le hongrois, le roumain, le serbe, l'allemand, le grec et l'anglais, avec plus de 200 voix anglaises affectives avec des accents natifs et non natifs. La boîte à outils fonctionne avec des sous-titres ou une saisie de texte brut, et offre une personnalisation vocale, permettant aux utilisateurs de cloner des voix pour une narration unique et personnalisée, ou de choisir parmi les 200 voix que l'outil met à disposition. Regardez l'outil en cours d'utilisation.
L'outil TTS peut améliorer l'accessibilité et l'engagement du contenu du patrimoine culturel, par exemple en ajoutant des narrations multilingues et riches en émotions pour rendre les expositions plus attrayantes pour divers publics. En outre, l'outil fournit une ressource pour les visiteurs malvoyants en offrant un contenu accessible sous la forme de descriptions audio détaillées. Il peut transformer des documents historiques en expériences de narration audio engageantes, permettant aux utilisateurs une expérience historique immersive.
Doublage vidéo ou narration de l'image à la parole
Les musées et les institutions culturelles s'appuient souvent sur des vidéos pour éduquer et engager les visiteurs. Cependant, créer des versions multilingues ou raconter des images silencieuses peut être difficile. Le système SHIFT TTS offre une fonctionnalité transparente pour le doublage vidéo et la génération de vidéos narrées à partir d'images.
L'une des principales caractéristiques du système de doublage vidéo permet aux utilisateurs de remplacer la voix originale d'une vidéo par un discours généré par l'IA (même en clonant la voix de personnages historiques) tout en préservant soigneusement le ton émotionnel du contenu. Le système excelle également dans la vocalisation d'images silencieuses, convertissant les images fixes via des descriptions de texte en vidéos narrées, rendant le contenu visuel plus accessible et attrayant pour divers publics. Voir un exemple.
Les fonctionnalités de doublage vidéo et de narration image-parole permettent aux musées de créer des versions multilingues de leur contenu vidéo, ce qui élargit l'accessibilité pour les publics internationaux. Ces outils peuvent être utilisés pour ajouter de la narration aux œuvres d'art et aux artefacts historiques dans les expositions numériques, offrant une narration plus riche et plus engageante qui améliore l'expérience du visiteur. En intégrant des voix off générées par l'IA, l'outil SHIFT TTS peut rendre les expériences muséales en ligne plus interactives et accessibles, en particulier pour ceux qui peuvent avoir des déficiences visuelles ou préfèrent le contenu audio.
Clonage vocal pour une narration personnalisée
L’une des caractéristiques les plus innovantes de SHIFT TTS est sa capacité de clonage vocal, qui permet aux utilisateurs de reproduire la voix d’un orateur pour la narration. Cette fonctionnalité est particulièrement utile pour préserver les voix des personnages ou des narrateurs historiques, offrant un moyen unique et authentique de donner vie à l'histoire.
Les utilisateurs peuvent télécharger un court échantillon audio, et SHIFT TTS générera un discours qui imite la voix de la personne. Cela garantit que la voix clonée conserve les émotions authentiques et les caractéristiques de la parole, créant une expérience plus réaliste et engageante. La fonction de clonage vocal ouvre des possibilités de narration personnalisée, en particulier pour les expositions historiques, où des personnages tels que Andy Warhol ou Salvador Dalí pourraient faire cloner leurs voix pour raconter leurs propres histoires, offrant une connexion plus profonde au contenu.
Le clonage vocal permet la récréation d'enregistrements historiques perdus ou incomplets, ramenant des voix disparues à la vie pour que le public puisse en faire l'expérience. Les conservateurs de musée, les créateurs de contenu et d'autres peuvent également bénéficier de cette fonctionnalité en utilisant leurs propres voix pour les narrations, assurant une touche cohérente et personnelle aux guides audio, expositions et autres types de contenu.
Paysages sonores générés par l'IA pour la narration immersive
Pour créer des expériences totalement immersives, SHIFT a testé l'intégration d'AudioGen, un outil d'IA qui génère des paysages sonores réalistes à partir de descriptions de texte. Cette fonctionnalité permet d'ajouter des sons de fond environnementaux ou ambiants aux expositions, en les enrichissant avec des paysages sonores personnalisés qui correspondent à la période ou au cadre spécifique décrit dans l'exposition. Les marchés anciens, les champs de bataille ou les espaces sacrés peuvent prendre vie avec des sons de fond authentiques et adaptés à l'époque, ajoutant une couche sensorielle à la narration qui approfondit le lien des visiteurs avec l'histoire. L'outil fonctionne dans plusieurs langues, garantissant son accessibilité à des publics internationaux et renforçant l'engagement interculturel. Regardez-le en action avec l'image principale de cette pièce ci-dessous!
Cette fonctionnalité peut également s'avérer très efficace dans les visites de musées en réalité virtuelle (VR) et en réalité augmentée (AR), où l'audio immersif peut améliorer considérablement le sentiment de présence et de réalisme. Les paysages sonores peuvent également améliorer l'accessibilité pour les visiteurs malvoyants, en offrant des descriptions audio détaillées des contextes et des événements historiques.
Pourquoi ces outils sont importants pour les professionnels du patrimoine culturel
On s'attend de plus en plus à ce que les musées et les institutions culturelles s'adressent à des publics mondiaux, multilingues et diversifiés. Cependant, la création de contenu immersif nécessite du temps, des ressources et une expertise qui font défaut à de nombreuses institutions.
La boîte à outils audio SHIFT prend en charge l'accessibilité en fournissant des descriptions audio captivantes pour les visiteurs malvoyants et une narration multilingue pour un large éventail de publics, garantissant que tout le monde peut s'engager dans le contenu. Il améliore également l'engagement en utilisant la parole affective et les paysages sonores axés sur l'IA pour immerger le public dans l'histoire et la culture, créant ainsi une expérience captivante.
En savoir plus
Tous les outils de la boîte à outils audio SHIFT seront disponibles sous un même toit sur la plate-forme SHIFT, qui est actuellement en développement. Cette plate-forme offrira un accès facile à tous les outils SHIFT, y compris le système Text-to-Speech, le doublage vidéo, la génération de paysages sonores, et plus encore.
Pour rester au courant des derniers développements, des nouvelles fonctionnalités et du lancement officiel de la plate-forme SHIFT, veuillez visiter le site Web SHIFT et vous inscrire à la newsletter SHIFT pour recevoir des mises à jour, des conseils et des annonces en temps opportun directement dans votre boîte de réception.
Cet article a été rédigé par Dionyssos Kounadis-Bastian, chercheur principal en IA, audEERING GmbH et Maria Kagkelidou, responsable des communications, The Heritage Management Organization.
