SHIFT is een project dat wordt gefinancierd door het Horizon Europa-programma van de EU om gespecialiseerde toolkits te ontwikkelen die zijn toegesneden op verschillende aspecten van de betrokkenheid bij cultureel erfgoed. De eerste die wordt onthuld, is de SHIFT Audio Toolkit, die pioniert met AI-gestuurde stemsynthese, emotiegedreven spraak, meertalige toegankelijkheid en meeslepende soundscapes.
Gemaakt door het SHIFT-consortium met audEERING die het voortouw neemt, zal deze Toolkit de kracht van tekst-naar-spraak (TTS), emotieherkenning, video-nasynchronisatie en soundscape-generatie benutten om meeslepende ervaringen te creëren die erfgoed tot leven brengen.
SHIFT TTS: een affectief, meertalig tekst-naar-spraaksysteem
SHIFT TTS is een tekst-naar-spraaksysteem (een technologie die elke geschreven tekst hardop kan voorlezen) dat hoogwaardige, emotioneel expressieve spraak in meerdere talen genereert. In tegenstelling tot traditionele TTS-tools, die robotisch klinken, bevat SHIFT TTS affectieve spraaksynthese, wat betekent dat het emoties zoals opwinding, kalmte of plechtigheid kan uitdrukken op basis van de inhoud die het vertelt.
De SHIFT TTS-tool ondersteunt meerdere talen, waaronder Albanees, Hongaars, Roemeens, Servisch, Duits, Grieks en Engels, met meer dan 200 affectieve Engelse stemmen met native en niet-native accenten. De toolkit werkt met ondertitels of platte tekstinvoer en biedt stempersonalisatie, zodat gebruikers stemmen kunnen klonen voor unieke en aangepaste vertelling, of kiezen uit de 200 stemmen die de tool beschikbaar stelt. Bekijk de tool in gebruik.
De TTS-tool kan de toegankelijkheid en betrokkenheid van inhoud van cultureel erfgoed verbeteren, bijvoorbeeld door meertalige, emotioneel rijke vertellingen toe te voegen om tentoonstellingen aantrekkelijker te maken voor een divers publiek. Bovendien biedt de tool een hulpmiddel voor visueel gehandicapte bezoekers door toegankelijke inhoud aan te bieden in de vorm van gedetailleerde audiobeschrijvingen. Het kan historische documenten transformeren in boeiende audio storytelling-ervaringen, waardoor gebruikers een meeslepende historische ervaring krijgen.
Video nasynchronisatie of beeld-naar-spraakvertelling
Musea en culturele instellingen vertrouwen vaak op video's om bezoekers te informeren en te betrekken. Het maken van meertalige versies of het vertellen van stille beelden kan echter een uitdaging zijn. Het SHIFT TTS-systeem biedt naadloze functionaliteit voor het nasynchroniseren van video's en het genereren van gesproken video's uit afbeeldingen.
Een van de belangrijkste kenmerken van de video-nasynchronisatiefaciliteit stelt gebruikers in staat om de originele stem in een video te vervangen door door AI gegenereerde spraak (zelfs het klonen van de stem van historische figuren) met behoud van de emotionele toon van de inhoud. Het systeem blinkt ook uit in stille beeldvocalisatie, waarbij stilstaande beelden via tekstbeschrijvingen worden omgezet in verhalende video's, waardoor visuele inhoud toegankelijker en aantrekkelijker wordt voor verschillende doelgroepen. Zie een voorbeeld.
De video-nasynchronisatie en beeld-naar-spraak-vertellingsfuncties stellen musea in staat om meertalige versies van hun video-inhoud te maken, waardoor de toegankelijkheid voor internationaal publiek wordt verbreed. Deze tools kunnen worden gebruikt om verhalen toe te voegen aan kunstwerken en historische artefacten in digitale tentoonstellingen, waardoor rijkere, boeiendere verhalen worden verteld die de bezoekerservaring verbeteren. Door AI-gegenereerde voice-overs te integreren, kan de SHIFT TTS-tool online museumervaringen interactiever en toegankelijker maken, met name voor mensen met visuele beperkingen of die de voorkeur geven aan audiogebaseerde inhoud.
Stem klonen voor gepersonaliseerde vertelling
Een van de meest innovatieve kenmerken van SHIFT TTS is de mogelijkheid om spraak te klonen, waardoor gebruikers de stem van een spreker kunnen repliceren voor vertelling. Deze functie is met name nuttig voor het behoud van de stemmen van historische figuren of vertellers, en biedt een unieke en authentieke manier om de geschiedenis tot leven te brengen.
Gebruikers kunnen een kort audiovoorbeeld uploaden en SHIFT TTS genereert spraak die de stem van de persoon nabootst. Dit zorgt ervoor dat de gekloonde stem authentieke emoties en spraakkenmerken behoudt, waardoor een meer realistische en boeiende ervaring ontstaat. De functie voor het klonen van stemmen biedt mogelijkheden voor gepersonaliseerde verhalen, met name voor historische tentoonstellingen, waar figuren zoals Andy Warhol of Salvador Dalí hun stemmen konden laten klonen om hun eigen verhalen te vertellen, wat een diepere verbinding met de inhoud biedt.
Het klonen van stemmen maakt het mogelijk om verloren of onvolledige historische opnamen te recreëren, waardoor lang vervlogen stemmen weer tot leven komen voor het publiek om te ervaren. Museumcuratoren, makers van inhoud en anderen kunnen ook profiteren van deze functie door hun eigen stemmen te gebruiken voor vertellingen, waardoor een consistente en persoonlijke aanraking van audiogidsen, tentoonstellingen en andere soorten inhoud wordt gewaarborgd.
AI-gegenereerde soundscapes voor meeslepende storytelling
Om volledig meeslepende ervaringen te creëren, heeft SHIFT de integratie van AudioGen getest, een AI-tool die realistische soundscapes genereert uit tekstbeschrijvingen. Deze functie maakt het mogelijk om omgevings- of omgevingsachtergrondgeluiden toe te voegen aan tentoonstellingen en deze te verrijken met op maat gemaakte soundscapes die overeenkomen met de specifieke tijdsperiode of instelling die in de tentoonstelling wordt beschreven. Oude markten, slagvelden of heilige ruimtes kunnen tot leven worden gebracht met authentieke, aan het tijdperk aangepaste achtergrondgeluiden, waardoor een zintuiglijke laag wordt toegevoegd aan het verhaal dat de verbinding van bezoekers met de geschiedenis verdiept. De tool werkt in meerdere talen, waardoor de toegankelijkheid ervan voor een internationaal publiek wordt gewaarborgd en de interculturele betrokkenheid wordt vergroot. Bekijk het in actie met de hoofdafbeelding van dit stuk hieronder!
Deze functie kan ook zeer effectief zijn in virtual reality (VR) en augmented reality (AR) museumtours, waar meeslepende audio het gevoel van aanwezigheid en realisme aanzienlijk kan verbeteren. De soundscapes kunnen ook de toegankelijkheid voor visueel gehandicapte bezoekers verbeteren, met gedetailleerde audiobeschrijvingen van historische instellingen en evenementen.
Waarom deze tools belangrijk zijn voor professionals op het gebied van cultureel erfgoed
Van musea en culturele instellingen wordt in toenemende mate verwacht dat zij een wereldwijd, meertalig en divers publiek betrekken. Het creëren van immersieve inhoud vereist echter tijd, middelen en expertise die veel instellingen missen.
De SHIFT-audiotoolkit ondersteunt toegankelijkheid door boeiende audiobeschrijvingen te bieden voor visueel gehandicapte bezoekers en meertalige vertellingen voor een breed publiek, zodat iedereen zich met de inhoud kan bezighouden. Het vergroot ook de betrokkenheid door AI-gestuurde affectieve spraak en soundscapes te gebruiken om het publiek onder te dompelen in geschiedenis en cultuur, waardoor een boeiende ervaring wordt gecreëerd.
Meer informatie
Alle tools in de SHIFT Audio Toolkit zullen onder één dak beschikbaar zijn op het SHIFT-platform, dat momenteel in ontwikkeling is. Dit platform biedt gemakkelijke toegang tot alle SHIFT-tools, waaronder het Text-to-Speech-systeem, video-nasynchronisatie, soundscape-generatie en meer.
Om op de hoogte te blijven van de nieuwste ontwikkelingen, nieuwe functies en de officiële lancering van het SHIFT-platform, gaat u naar de SHIFT-website en meldt u zich aan voor de SHIFT-nieuwsbrief om tijdige updates, tips en aankondigingen rechtstreeks in uw inbox te ontvangen.
Dit bericht is geschreven door Dionyssos Kounadis-Bastian, Senior AI Researcher, audEERING GmbH en Maria Kagkelidou, Communications Manager, The Heritage Management Organization.
