Istražite SHIFT Audio Toolkit za kulturnu baštinu

Objavljeno 15. svibnja 2025. po

Maria Kagkelidou (Heritage Management Organisation)

SHIFT je projekt koji se financira iz EU-ova programa Obzor Europa za razvoj specijaliziranih alata prilagođenih različitim aspektima angažmana u području kulturne baštine. Prvi koji će biti predstavljen je SHIFT Audio Toolkit, koji je pionir sinteze glasa s umjetnom inteligencijom, govora vođenog emocijama, višejezične pristupačnosti i imerzivnih zvučnih pejzaža.

Stvoren od strane konzorcija SHIFT s audEERINGom koji preuzima vodstvo, ovaj alat će iskoristiti snagu pretvaranja teksta u govor (TTS), prepoznavanje emocija, sinkronizaciju videozapisa i generiranje zvučnog krajolika kako bi stvorio imerzivna iskustva koja oživljavaju baštinu.

SHIFT TTS: afektivan višejezični sustav pretvaranja teksta u govor

SHIFT TTS je sustav pretvaranja teksta u govor (tehnologija koja može glasno čitati bilo koji pisani tekst) koji generira kvalitetan, emocionalno izražajan govor na više jezika. Za razliku od tradicionalnih TTS alata, koji su zvučni roboti, SHIFT TTS uključuje afektivnu sintezu govora, što znači da može izraziti emocije kao što su uzbuđenje, smirenost ili svečanost na temelju sadržaja koji pripovijeda.

Alat SHIFT TTS podržava više jezika, uključujući albanski, mađarski, rumunjski, srpski, njemački, grčki i engleski, s više od 200 afektivnih engleskih glasova s izvornim i ne-domaćim naglaskom. Alat radi s podnaslovima ili jednostavnim unosom teksta i nudi personalizaciju glasa, omogućujući korisnicima kloniranje glasova za jedinstvenu i prilagođenu pripovijedanje ili odabir između 200 glasova koje alat stavlja na raspolaganje. Pogledajte alat koji se koristi.

Alat TTS može poboljšati dostupnost i angažman sadržaja kulturne baštine, primjerice dodavanjem višejezičnih, emocionalno bogatih pripovijedanja kako bi izložbe bile zanimljivije različitoj publici. Osim toga, alat pruža resurs za slabovidne posjetitelje nudeći pristupačan sadržaj u obliku detaljnih zvučnih opisa. Može pretvoriti povijesne dokumente u zanimljiva iskustva audio pripovijedanja, omogućujući korisnicima imerzivno povijesno iskustvo.

Snimanje videozapisa ili pripovijedanje o pretvaranju slike u govor

Muzeji i kulturne institucije često se oslanjaju na videozapise kako bi educirali i angažirali posjetitelje. Međutim, stvaranje višejezičnih verzija ili pripovijedanje tihih slika može biti izazovno. SHIFT TTS sustav nudi besprijekornu funkcionalnost za sinkronizaciju videozapisa i generiranje pripovijedanih videozapisa sa slika.

Jedna od ključnih značajki uređaja za sinkronizaciju videozapisa omogućuje korisnicima da izvorni glas u videozapisu zamijene govorom generiranim umjetnom inteligencijom (čak i kloniranjem glasa povijesnih ličnosti) uz pažljivo očuvanje emocionalnog tona sadržaja. Sustav se također ističe u tihoj vokalizaciji slika, pretvarajući mirne slike putem tekstualnih opisa u pripovijedane videozapise, čineći vizualni sadržaj pristupačnijim i zanimljivijim različitoj publici. Vidjeti primjer.

Značajke sinkronizacije videozapisa i pripovijedanja iz slike u govor omogućuju muzejima stvaranje višejezičnih verzija videosadržaja, čime se povećava dostupnost za međunarodnu publiku. Ovi alati mogu se koristiti za dodavanje pripovijedanja umjetničkim djelima i povijesnim artefaktima u digitalnim izlošcima, pružajući bogatije, zanimljivije pripovijedanje koje poboljšava iskustvo posjetitelja. Integriranjem glasovnih programa generiranih umjetnom inteligencijom alat SHIFT TTS može učiniti internetska muzejska iskustva interaktivnijima i pristupačnijima, posebno za one koji mogu imati oštećenje vida ili preferirati audiosadržaj.

Kloniranje glasa za personaliziranu pripovijedanje

Jedna od najinovativnijih značajki SHIFT TTS-a njegova je sposobnost kloniranja glasa, što korisnicima omogućuje da repliciraju glas zvučnika za pripovijedanje. Ova je značajka posebno korisna za očuvanje glasova povijesnih ličnosti ili pripovjedača, nudeći jedinstven i autentičan način oživljavanja povijesti.

Korisnici mogu učitati kratki audio uzorak, a SHIFT TTS generirat će govor koji oponaša glas osobe. To osigurava da klonirani glas zadrži autentične emocije i govorne karakteristike, stvarajući realističnije i zanimljivije iskustvo. Značajka kloniranja glasa otvara mogućnosti za personalizirano pripovijedanje, posebno za povijesne izložbe, gdje bi likovi kao što su Andy Warhol ili Salvador Dalí mogli klonirati svoje glasove kako bi ispričali vlastite priče, nudeći dublju povezanost sa sadržajem.

Kloniranje glasa omogućuje rekreaciju izgubljenih ili nepotpunih povijesnih snimki, vraćajući davno izgubljene glasove u život kako bi ih publika mogla iskusiti. Kustosi muzeja, kreatori sadržaja i drugi također mogu imati koristi od ove značajke koristeći vlastite glasove za pripovijedanje, osiguravajući dosljedan i osobni dodir audio vodičima, izložbama i drugim vrstama sadržaja.

Zvučni pejzaži s umjetnom inteligencijom za imerzivno pripovijedanje

Za stvaranje potpuno imerzivnih iskustava, SHIFT je testirao integriranje AudioGena, AI alata koji generira realistične zvučne slike iz opisa teksta. Ova značajka omogućuje dodavanje pozadinskih zvukova iz okoliša ili okoline izložbama, obogaćujući ih prilagođenim zvučnim pejzažima koji odgovaraju određenom vremenskom razdoblju ili postavci opisanoj u izložbi. Drevna tržišta, bojišta ili sveti prostori mogu se oživjeti autentičnim pozadinskim zvukovima prikladnim za eru, dodajući osjetilni sloj pripovijedanju koji produbljuje povezanost posjetitelja s poviješću. Alat funkcionira na više jezika, čime se osigurava njegova dostupnost međunarodnoj publici i jača međukulturni angažman. Pogledajte ga u akciji s glavnom slikom ovog djela ispod!

Ova se značajka također može pokazati vrlo učinkovitom u muzejskim obilascima virtualne stvarnosti (VR) i proširene stvarnosti (AR), gdje imerzivni zvuk može značajno poboljšati osjećaj prisutnosti i realizma. Soundscapes također može poboljšati pristupačnost za slabovidne posjetitelje, nudeći detaljne audio opise povijesnih postavki i događaja.

Zašto su ti alati važni za stručnjake u području kulturne baštine

Od muzeja i kulturnih institucija sve se više očekuje da angažiraju globalnu, višejezičnu i raznoliku publiku. Međutim, stvaranje imerzivnog sadržaja zahtijeva vrijeme, resurse i stručnost koji mnogim institucijama nedostaju.

Zvučni alat SHIFT podržava pristupačnost pružajući zadivljujuće zvučne opise za slabovidne posjetitelje i višejezičnu pripovijedanje za različite publike, osiguravajući da se svi mogu uključiti u sadržaj. Povećava i angažman upotrebom afektivnog govora i zvučnih pejzaža koji se temelje na umjetnoj inteligenciji kako bi se publika uronila u povijest i kulturu, čime se stvara zadivljujuće iskustvo.

Saznajte više

Svi alati u SHIFT Audio Toolkit će biti dostupni pod jednim krovom na SHIFT platformi, koja je trenutno u razvoju. Ova platforma će ponuditi jednostavan pristup svim SHIFT alatima, uključujući Text-to-Speech sustav, video sinkronizaciju, generiranje zvučnog krajolika i još mnogo toga.

Kako biste bili informirani o najnovijim dostignućima, novim značajkama i službenom pokretanju platforme SHIFT, posjetite web-mjesto SHIFT-a i prijavite se za bilten SHIFT-a kako biste primali pravodobna ažuriranja, savjete i obavijesti izravno u svoj inbox.

Ovaj post su napisali Dionyssos Kounadis-Bastian, viši istraživač umjetne inteligencije, audEERING GmbH i Maria Kagkelidou, voditeljica komunikacija, Organizacija za upravljanje baštinom.