Esplora lo SHIFT Audio Toolkit per il patrimonio culturale

Pubblicato 15 maggio 2025 di

Maria Kagkelidou (Heritage Management Organisation)

SHIFT è un progetto finanziato dal programma Orizzonte Europa dell'UE per sviluppare kit di strumenti specializzati su misura per i diversi aspetti dell'impegno per il patrimonio culturale. Il primo ad essere presentato è lo SHIFT Audio Toolkit, che è pioniere della sintesi vocale basata sull'intelligenza artificiale, del parlato guidato dalle emozioni, dell'accessibilità multilingue e dei paesaggi sonori immersivi.

Creato dal consorzio SHIFT con audEERING in testa, questo Toolkit sfrutterà la potenza del text-to-speech (TTS), il riconoscimento delle emozioni, il doppiaggio video e la generazione di paesaggi sonori per creare esperienze immersive che danno vita al patrimonio.

SHIFT TTS: un sistema di sintesi vocale affettivo e multilingue

SHIFT TTS è un sistema text-to-speech (una tecnologia in grado di leggere ad alta voce qualsiasi testo scritto) che genera un discorso di alta qualità ed emotivamente espressivo in più lingue. A differenza dei tradizionali strumenti TTS, che suonano robotici, SHIFT TTS incorpora la sintesi vocale affettiva, il che significa che può esprimere emozioni come l'eccitazione, la calma o la solennità in base al contenuto che narra.

Lo strumento SHIFT TTS supporta più lingue, tra cui albanese, ungherese, rumeno, serbo, tedesco, greco e inglese, con oltre 200 voci in inglese affettivo con accenti nativi e non nativi. Il toolkit funziona con sottotitoli o input di testo semplice e offre la personalizzazione vocale, consentendo agli utenti di clonare voci per una narrazione unica e personalizzata o scegliere tra le 200 voci che lo strumento mette a disposizione. Guarda lo strumento in uso.

Lo strumento TTS può migliorare l'accessibilità e il coinvolgimento dei contenuti del patrimonio culturale, ad esempio aggiungendo narrazioni multilingue ed emotivamente ricche per rendere le mostre più coinvolgenti per un pubblico diversificato. Inoltre, lo strumento fornisce una risorsa per i visitatori ipovedenti offrendo contenuti accessibili sotto forma di descrizioni audio dettagliate. Può trasformare documenti storici in coinvolgenti esperienze di narrazione audio, consentendo agli utenti un'esperienza storica immersiva.

Doppiaggio video o narrazione image-to-speech

I musei e le istituzioni culturali spesso si affidano ai video per educare e coinvolgere i visitatori. Tuttavia, la creazione di versioni multilingue o la narrazione di immagini silenziose può essere difficile. Il sistema SHIFT TTS offre funzionalità senza soluzione di continuità per il doppiaggio video e la generazione di video narrati da immagini.

Una delle caratteristiche chiave della funzione di doppiaggio video consente agli utenti di sostituire la voce originale in un video con un discorso generato dall'IA (anche clonando la voce di figure storiche) preservando attentamente il tono emotivo del contenuto. Il sistema eccelle anche nella vocalizzazione silenziosa delle immagini, convertendo immagini fisse tramite descrizioni di testo in video narrati, rendendo i contenuti visivi più accessibili e coinvolgenti per un pubblico diversificato. Si veda un esempio.

Le funzionalità di doppiaggio video e narrazione image-to-speech consentono ai musei di creare versioni multilingue dei loro contenuti video, ampliando l'accessibilità per il pubblico internazionale. Questi strumenti possono essere utilizzati per aggiungere narrazione alle opere d'arte e agli artefatti storici nelle mostre digitali, fornendo una narrazione più ricca e coinvolgente che migliora l'esperienza del visitatore. Integrando i voiceover generati dall'IA, lo strumento SHIFT TTS può rendere le esperienze museali online più interattive e accessibili, in particolare per coloro che potrebbero avere disabilità visive o preferire contenuti audio.

Clonazione vocale per una narrazione personalizzata

Una delle caratteristiche più innovative di SHIFT TTS è la sua capacità di clonazione vocale, che consente agli utenti di replicare la voce di un oratore per la narrazione. Questa caratteristica è particolarmente utile per preservare le voci di personaggi storici o narratori, offrendo un modo unico e autentico per dare vita alla storia.

Gli utenti possono caricare un breve campione audio e SHIFT TTS genererà un discorso che imita la voce della persona. Ciò garantisce che la voce clonata mantenga emozioni autentiche e caratteristiche vocali, creando un'esperienza più realistica e coinvolgente. La funzione di clonazione vocale apre possibilità di narrazione personalizzata, in particolare per le mostre storiche, dove personaggi come Andy Warhol o Salvador Dalí potrebbero avere le loro voci clonate per raccontare le proprie storie, offrendo una connessione più profonda con il contenuto.

La clonazione vocale consente la riproduzione di registrazioni storiche perse o incomplete, riportando in vita voci di vecchia data per il pubblico. Anche i curatori dei musei, i creatori di contenuti e altri possono beneficiare di questa funzione utilizzando le proprie voci per le narrazioni, garantendo un tocco coerente e personale alle audioguide, alle mostre e ad altri tipi di contenuti.

Paesaggi sonori generati dall'IA per una narrazione immersiva

Per creare esperienze completamente immersive, SHIFT ha testato l'integrazione di AudioGen, uno strumento AI che genera paesaggi sonori realistici dalle descrizioni del testo. Questa caratteristica consente l'aggiunta di suoni di sottofondo ambientali o ambientali alle mostre, arricchendole con paesaggi sonori personalizzati che corrispondono al periodo di tempo specifico o all'ambientazione descritta nella mostra. Mercati antichi, campi di battaglia o spazi sacri possono essere riportati in vita con suoni di sottofondo autentici e appropriati all'epoca, aggiungendo uno strato sensoriale alla narrazione che approfondisce la connessione dei visitatori con la storia. Lo strumento funziona in più lingue, garantendo la sua accessibilità al pubblico internazionale e migliorando l'impegno interculturale. Guardalo in azione con l'immagine principale di questo pezzo qui sotto!

Questa funzione può anche rivelarsi molto efficace nei tour museali di realtà virtuale (VR) e realtà aumentata (AR), dove l'audio immersivo può migliorare significativamente il senso di presenza e realismo. I paesaggi sonori possono anche migliorare l'accessibilità per i visitatori ipovedenti, offrendo descrizioni audio dettagliate di ambientazioni ed eventi storici.

Perché questi strumenti sono importanti per i professionisti del patrimonio culturale

I musei e le istituzioni culturali sono sempre più tenuti a coinvolgere un pubblico globale, multilingue e diversificato. Tuttavia, la creazione di contenuti coinvolgenti richiede tempo, risorse e competenze che mancano a molte istituzioni.

Il kit di strumenti audio SHIFT supporta l'accessibilità fornendo descrizioni audio accattivanti per i visitatori ipovedenti e narrazione multilingue per una vasta gamma di pubblico, garantendo che tutti possano interagire con il contenuto. Migliora inoltre l'impegno utilizzando il discorso affettivo e i paesaggi sonori guidati dall'IA per immergere il pubblico nella storia e nella cultura, creando un'esperienza accattivante.

Scopri di più

Tutti gli strumenti dello SHIFT Audio Toolkit saranno disponibili sotto lo stesso tetto sulla piattaforma SHIFT, attualmente in fase di sviluppo. Questa piattaforma offrirà un facile accesso a tutti gli strumenti SHIFT, tra cui il sistema Text-to-Speech, il doppiaggio video, la generazione di paesaggi sonori e altro ancora.

Per rimanere aggiornato sugli ultimi sviluppi, le nuove funzionalità e il lancio ufficiale della piattaforma SHIFT, visita il sito Web SHIFT e iscriviti alla newsletter SHIFT per ricevere aggiornamenti, suggerimenti e annunci tempestivi direttamente nella tua casella di posta.

Questo post è stato scritto da Dionyssos Kounadis-Bastian, Senior AI Researcher, audEERING GmbH e Maria Kagkelidou, Communications Manager, The Heritage Management Organization.