SHIFT ist ein im Rahmen des EU-Programms „Horizont Europa“ finanziertes Projekt zur Entwicklung spezialisierter Toolkits, die auf verschiedene Aspekte des Engagements im Bereich des Kulturerbes zugeschnitten sind. Das erste, das vorgestellt wird, ist das SHIFT Audio Toolkit, das Pionierarbeit bei KI-gestützter Sprachsynthese, emotionsgesteuerter Sprache, mehrsprachiger Zugänglichkeit und immersiven Klanglandschaften leistet.
Dieses Toolkit, das vom SHIFT-Konsortium mit audEERING an der Spitze erstellt wurde, wird die Kraft von Text-to-Speech (TTS), Emotionserkennung, Video-Synchronisation und Soundscape-Generierung nutzen, um immersive Erlebnisse zu schaffen, die das Erbe zum Leben erwecken.
UMSCHALT-TTS: ein affektives, mehrsprachiges Text-to-Speech-System
SHIFT TTS ist ein Text-to-Speech-System (eine Technologie, die jeden geschriebenen Text laut vorlesen kann), das qualitativ hochwertige, emotional ausdrucksstarke Sprache in mehreren Sprachen erzeugt. Im Gegensatz zu herkömmlichen TTS-Tools, die robotisch klingen, beinhaltet SHIFT TTS affektive Sprachsynthese, d. h. es kann Emotionen wie Aufregung, Ruhe oder Feierlichkeit basierend auf dem Inhalt, den es erzählt, ausdrücken.
Das SHIFT TTS-Tool unterstützt mehrere Sprachen, darunter Albanisch, Ungarisch, Rumänisch, Serbisch, Deutsch, Griechisch und Englisch, mit über 200 affektiven englischen Stimmen mit muttersprachlichen und nicht-muttersprachlichen Akzenten. Das Toolkit funktioniert mit Untertiteln oder Klartexteingabe und bietet eine Sprachpersonalisierung, mit der Benutzer Stimmen für eine einzigartige und individuelle Erzählung klonen oder aus den 200 Stimmen wählen können, die das Tool zur Verfügung stellt. Beobachten Sie das verwendete Tool.
Das TTS-Tool kann die Zugänglichkeit und das Engagement von Inhalten des Kulturerbes verbessern, indem es beispielsweise mehrsprachige, emotional reichhaltige Erzählungen hinzufügt, um Ausstellungen für ein vielfältigeres Publikum attraktiver zu machen. Darüber hinaus bietet das Tool eine Ressource für sehbehinderte Besucher, indem es barrierefreie Inhalte in Form von detaillierten Audiobeschreibungen anbietet. Es kann historische Dokumente in ansprechende Audio-Storytelling-Erlebnisse verwandeln und den Benutzern ein immersives historisches Erlebnis ermöglichen.
Video-Dubbing oder Image-to-Speech-Erzählung
Museen und kulturelle Einrichtungen verlassen sich oft auf Videos, um Besucher zu erziehen und zu engagieren. Das Erstellen mehrsprachiger Versionen oder das Erzählen stiller Bilder kann jedoch eine Herausforderung darstellen. Das SHIFT TTS-System bietet nahtlose Funktionen für das Synchronisieren von Videos und die Generierung von erzählten Videos aus Bildern.
Eines der Hauptmerkmale der Video-Synchronisationsfunktion ermöglicht es Benutzern, die ursprüngliche Stimme in einem Video durch KI-generierte Sprache zu ersetzen (sogar die Stimme historischer Figuren zu klonen), während der emotionale Ton des Inhalts sorgfältig beibehalten wird. Das System zeichnet sich auch durch stumme Bildvokalisation aus und wandelt Standbilder über Textbeschreibungen in erzählte Videos um, wodurch visuelle Inhalte für ein vielfältiges Publikum zugänglicher und ansprechender werden. Siehe Beispiel .
Die Video-Synchronisations- und Bild-zu-Sprache-Erzählungsfunktionen ermöglichen es Museen, mehrsprachige Versionen ihrer Videoinhalte zu erstellen und die Zugänglichkeit für ein internationales Publikum zu erweitern. Diese Tools können verwendet werden, um Kunstwerken und historischen Artefakten in digitalen Exponaten Erzählungen hinzuzufügen und ein reichhaltigeres, ansprechenderes Geschichtenerzählen zu bieten, das das Besuchererlebnis verbessert. Durch die Integration von KI-generierten Voiceovern kann das SHIFT TTS-Tool Online-Museumserlebnisse interaktiver und zugänglicher machen, insbesondere für diejenigen, die visuelle Beeinträchtigungen haben oder audiobasierte Inhalte bevorzugen.
Klonen von Stimmen für personalisierte Erzählungen
Eines der innovativsten Merkmale von SHIFT TTS ist die Fähigkeit zum Klonen von Stimmen, die es den Nutzern ermöglicht, die Stimme eines Sprechers für die Erzählung zu replizieren. Diese Funktion ist besonders nützlich, um die Stimmen historischer Persönlichkeiten oder Erzähler zu bewahren und bietet eine einzigartige und authentische Möglichkeit, Geschichte zum Leben zu erwecken.
Benutzer können eine kurze Audioprobe hochladen, und SHIFT TTS generiert eine Sprache, die die Stimme der Person nachahmt. Dies stellt sicher, dass die geklonte Stimme authentische Emotionen und Spracheigenschaften beibehält und ein realistischeres und ansprechenderes Erlebnis schafft. Die Funktion zum Klonen von Stimmen eröffnet Möglichkeiten für personalisiertes Geschichtenerzählen, insbesondere für historische Ausstellungen, in denen Figuren wie Andy Warhol oder Salvador Dalí ihre Stimmen klonen lassen könnten, um ihre eigenen Geschichten zu erzählen, was eine tiefere Verbindung zum Inhalt bietet.
Das Klonen von Stimmen ermöglicht die Nachbildung verlorener oder unvollständiger historischer Aufnahmen und erweckt längst vergangene Stimmen zum Leben, die das Publikum erleben kann. Museumskuratoren, Inhaltsersteller und andere können auch von dieser Funktion profitieren, indem sie ihre eigenen Stimmen für Erzählungen verwenden und eine konsistente und persönliche Note für Audioguides, Ausstellungen und andere Arten von Inhalten gewährleisten.
KI-generierte Soundscapes für immersives Storytelling
Um ein umfassendes Erlebnis zu schaffen, hat SHIFT die Integration von AudioGen getestet, einem KI-Tool, das realistische Klanglandschaften aus Textbeschreibungen generiert. Diese Funktion ermöglicht das Hinzufügen von Umgebungs- oder Umgebungshintergrundgeräuschen zu Ausstellungen und bereichert sie mit maßgeschneiderten Klanglandschaften, die dem spezifischen Zeitraum oder der Umgebung entsprechen, die in der Ausstellung beschrieben sind. Alte Märkte, Schlachtfelder oder heilige Räume können mit authentischen, äragerechten Hintergrundgeräuschen zum Leben erweckt werden und das Geschichtenerzählen um eine sensorische Schicht erweitern, die die Verbindung der Besucher mit der Geschichte vertieft. Das Tool arbeitet in mehreren Sprachen, um seine Zugänglichkeit für ein internationales Publikum zu gewährleisten und das interkulturelle Engagement zu verbessern. Beobachten Sie es in Aktion mit dem Hauptbild dieses Stücks unten!
Diese Funktion kann sich auch bei Museumsführungen in der virtuellen Realität (VR) und Augmented Reality (AR) als sehr effektiv erweisen, bei denen immersives Audio das Gefühl von Präsenz und Realismus erheblich verbessern kann. Die Klanglandschaften können auch die Zugänglichkeit für sehbehinderte Besucher verbessern und detaillierte Audiobeschreibungen historischer Umgebungen und Ereignisse bieten.
Warum diese Werkzeuge für Fachleute des Kulturerbes wichtig sind
Von Museen und kulturellen Einrichtungen wird zunehmend erwartet, dass sie ein globales, mehrsprachiges und vielfältiges Publikum ansprechen. Die Erstellung immersiver Inhalte erfordert jedoch Zeit, Ressourcen und Fachwissen, das vielen Institutionen fehlt.
Das SHIFT Audio Toolkit unterstützt die Barrierefreiheit, indem es fesselnde Audiobeschreibungen für sehbehinderte Besucher und mehrsprachige Erzählungen für eine Vielzahl von Zielgruppen bereitstellt und sicherstellt, dass sich jeder mit den Inhalten beschäftigen kann. Es verbessert auch das Engagement, indem es KI-gesteuerte affektive Sprache und Klanglandschaften verwendet, um das Publikum in Geschichte und Kultur einzutauchen und ein fesselndes Erlebnis zu schaffen.
Erfahren Sie mehr
Alle Tools des SHIFT Audio Toolkits werden auf der SHIFT-Plattform, die sich derzeit in der Entwicklung befindet, unter einem Dach verfügbar sein. Diese Plattform bietet einfachen Zugriff auf alle SHIFT-Tools, einschließlich des Text-to-Speech-Systems, Video-Dubbing, Soundscape-Generierung und mehr.
Um über die neuesten Entwicklungen, neuen Funktionen und den offiziellen Start der SHIFT-Plattform auf dem Laufenden zu bleiben, besuchen Sie bitte die SHIFT-Website und melden Sie sich für den SHIFT-Newsletter an, um aktuelle Updates, Tipps und Ankündigungen direkt in Ihrem Posteingang zu erhalten.
Dieser Beitrag wurde geschrieben von Dionyssos Kounadis-Bastian, Senior AI Researcher, audEERING GmbH und Maria Kagkelidou, Communications Manager, The Heritage Management Organization.
