Udforsk SHIFT Audio Toolkit til kulturarv

Offentliggjort 15. maj 2025 ved

Maria Kagkelidou (Heritage Management Organisation)

SHIFT er et projekt, der finansieres af EU's Horisont Europa-program med henblik på at udvikle specialiserede værktøjssæt, der er skræddersyet til forskellige aspekter af inddragelsen af kulturarven. Den første, der afsløres, er SHIFT Audio Toolkit, som er banebrydende inden for AI-drevet stemmesyntese, følelsesdrevet tale, flersproget tilgængelighed og medrivende lydlandskaber.

Dette værktøjssæt, der er skabt af SHIFT-konsortiet med audEERING i spidsen, vil udnytte kraften i tekst-til-tale (TTS), følelsesgenkendelse, videosynkronisering og lydlandskabsgenerering til at skabe fordybende oplevelser, der bringer arv til liv.

SKIFT TTS: et affektivt, flersproget tekst-til-tale-system

Shift TTS er et tekst-til-tale system (en teknologi, der kan læse højt enhver skriftlig tekst), som genererer høj kvalitet, følelsesmæssigt udtryksfuld tale på flere sprog. I modsætning til traditionelle TTS-værktøjer, som lyder robotagtige, indeholder SHIFT TTS affektiv talesyntese, hvilket betyder, at den kan udtrykke følelser såsom spænding, ro eller højtidelighed baseret på det indhold, den fortæller.

SHIFT TTS-værktøjet understøtter flere sprog, herunder albansk, ungarsk, rumænsk, serbisk, tysk, græsk og engelsk, med over 200 affektive engelske stemmer med indfødte og ikke-indfødte accenter. Værktøjssættet fungerer med undertekster eller almindelig tekstindtastning og tilbyder stemmetilpasning, der giver brugerne mulighed for at klone stemmer til unik og tilpasset fortælling eller vælge mellem de 200 stemmer, som værktøjet stiller til rådighed. Se værktøjet i brug.

TTS-værktøjet kan forbedre tilgængeligheden og engagementet af kulturarvsindhold, f.eks. ved at tilføje flersprogede, følelsesmæssigt rige fortællinger for at gøre udstillinger mere engagerende for forskellige målgrupper. Derudover giver værktøjet synshandicappede besøgende en ressource ved at tilbyde tilgængeligt indhold i form af detaljerede lydbeskrivelser. Det kan omdanne historiske dokumenter til engagerende lydfortællingsoplevelser, der giver brugerne en fordybende historisk oplevelse.

Videosynkronisering eller billed-til-tale-fortælling

Museer og kulturinstitutioner er ofte afhængige af videoer for at uddanne og engagere besøgende. Men at skabe flersprogede versioner eller fortælle lydløse billeder kan være udfordrende. SHIFT TTS-systemet tilbyder problemfri funktionalitet til videosynkronisering og generering af indtalte videoer fra billeder.

En af de vigtigste funktioner i video dubbing facilitet giver brugerne mulighed for at erstatte den oprindelige stemme i en video med AI-genereret tale (selv kloning stemmen af historiske figurer), samtidig med at man omhyggeligt bevarer den følelsesmæssige tone i indholdet. Systemet udmærker sig også ved lydløs billedvokalisering, der konverterer stillbilleder via tekstbeskrivelser til indtalte videoer, hvilket gør visuelt indhold mere tilgængeligt og engagerende for forskellige målgrupper. Se et eksempel.

Funktionerne videosynkronisering og billed-til-tale-fortælling gør det muligt for museer at oprette flersprogede versioner af deres videoindhold, hvilket udvider tilgængeligheden for internationale publikum. Disse værktøjer kan bruges til at tilføje fortælling til kunstværker og historiske artefakter i digitale udstillinger, hvilket giver rigere og mere engagerende historiefortælling, der forbedrer den besøgendes oplevelse. Ved at integrere AI-genererede voiceovers kan SHIFT TTS-værktøjet gøre online museumsoplevelser mere interaktive og tilgængelige, især for dem, der måske har synshandicap eller foretrækker lydbaseret indhold.

Stemmekloning til personlig fortælling

Et af de mest innovative træk ved SHIFT TTS er dets evne til at klone stemmer, hvilket giver brugerne mulighed for at kopiere en talers stemme til indtaling. Denne funktion er især nyttig til at bevare stemmerne fra historiske figurer eller fortællere, der tilbyder en unik og autentisk måde at bringe historien til live på.

Brugerne kan uploade en kort lydprøve, og SHIFT TTS genererer tale, der efterligner personens stemme. Dette sikrer, at den klonede stemme bevarer autentiske følelser og taleegenskaber, hvilket skaber en mere realistisk og engagerende oplevelse. Stemmekloning åbner muligheder for personlig historiefortælling, især til historiske udstillinger, hvor figurer som Andy Warhol eller Salvador Dalí kunne få deres stemmer klonet til at fortælle deres egne historier, hvilket giver en dybere forbindelse til indholdet.

Stemmekloningen gør det muligt at genskabe tabte eller ufuldstændige historiske optagelser, hvilket bringer gamle stemmer tilbage til livet for publikum at opleve. Museumskuratorer, indholdsskabere og andre kan også drage fordel af denne funktion ved at bruge deres egne stemmer til fortællinger, hvilket sikrer et konsistent og personligt touch til lydguider, udstillinger og andre typer indhold.

AI-genererede lydlandskaber til fordybende historiefortælling

For at skabe fuldt fordybende oplevelser har SHIFT testet integration af AudioGen, et AI-værktøj, der genererer realistiske lydbilleder fra tekstbeskrivelser. Denne funktion gør det muligt at tilføje miljømæssige eller omgivende baggrundslyde til udstillinger og berige dem med tilpassede lydbilleder, der matcher den specifikke tidsperiode eller indstilling, der er beskrevet i udstillingen. Gamle markeder, slagmarker eller hellige rum kan bringes til live med autentiske, æra-passende baggrundslyde, der tilføjer et sensorisk lag til historiefortællingen, der uddyber besøgendes forbindelse med historien. Værktøjet fungerer på flere sprog, sikrer dets tilgængelighed for internationale målgrupper og styrker det tværkulturelle engagement. Se det i aktion med det ledende billede af dette stykke nedenfor!

Denne funktion kan også vise sig meget effektiv i virtual reality (VR) og augmented reality (AR) museumsture, hvor fordybende lyd kan forbedre følelsen af tilstedeværelse og realisme betydeligt. Lydbillederne kan også forbedre tilgængeligheden for synshandicappede besøgende og tilbyde detaljerede lydbeskrivelser af historiske indstillinger og begivenheder.

Hvorfor disse værktøjer betyder noget for fagfolk inden for kulturarv

Museer og kulturinstitutioner forventes i stigende grad at engagere et globalt, flersproget og mangfoldigt publikum. Men at skabe medrivende indhold kræver tid, ressourcer og ekspertise, som mange institutioner mangler.

SHIFT-lydværktøjssættet understøtter tilgængelighed ved at levere fængslende lydbeskrivelser til synshandicappede besøgende og flersproget fortælling til en bred vifte af målgrupper, hvilket sikrer, at alle kan engagere sig i indholdet. Det øger også engagementet ved at bruge AI-drevet affektiv tale og lydlandskaber til at fordybe publikum i historie og kultur og skabe en fængslende oplevelse.

Læs mere

Alle værktøjerne i SHIFT Audio Toolkit vil være tilgængelige under ét tag på SHIFT-platformen, som i øjeblikket er under udvikling. Denne platform vil tilbyde nem adgang til alle SHIFT værktøjer, herunder tekst-til-tale-system, video dubbing, lydbillede generation, og meget mere.

For at holde dig opdateret om den seneste udvikling, nye funktioner og den officielle lancering af SHIFT-platformen, kan du besøge SHIFT-webstedet og tilmelde dig SHIFT-nyhedsbrevet for at modtage rettidige opdateringer, tips og meddelelser direkte til din indbakke.

Dette indlæg er skrevet af Dionyssos Kounadis-Bastian, Senior AI Researcher, audEERING GmbH og Maria Kagkelidou, Communications Manager, The Heritage Management Organization.