Explorați Setul de instrumente audio SHIFT pentru patrimoniul cultural

Publicat 15 mai 2025 de

Maria Kagkelidou (Heritage Management Organisation)

SHIFT este un proiect finanțat prin programul Orizont Europa al UE pentru a dezvolta seturi de instrumente specializate adaptate diferitelor aspecte ale implicării în patrimoniul cultural. Primul care urmează să fie dezvăluit este SHIFT Audio Toolkit, care este pionierul sintezei vocale bazate pe IA, al vorbirii bazate pe emoții, al accesibilității multilingve și al peisajelor sonore imersive.

Creat de consorțiul SHIFT, cu audEERING preluând conducerea, acest set de instrumente va valorifica puterea textului în vorbire (TTS), recunoașterea emoțiilor, dublajul video și generarea de sunet pentru a crea experiențe imersive care aduc patrimoniul la viață.

SHIFT TTS: un sistem text-vorbire afectiv, multilingv

SHIFT TTS este un sistem text-to-speech (o tehnologie care poate citi cu voce tare orice text scris) care generează o vorbire de înaltă calitate, expresivă emoțional în mai multe limbi. Spre deosebire de instrumentele TTS tradiționale, care sună robotizat, SHIFT TTS încorporează sinteza vorbirii afective – ceea ce înseamnă că poate exprima emoții precum entuziasmul, calmul sau solemnitatea pe baza conținutului pe care îl narează.

Instrumentul SHIFT TTS suportă mai multe limbi, inclusiv albaneză, maghiară, română, sârbă, germană, greacă și engleză, cu peste 200 de voci afective în limba engleză cu accente native și non-native. Setul de instrumente funcționează cu subtitrări sau introducere de text simplu și oferă personalizare vocală, permițând utilizatorilor să cloneze voci pentru o narațiune unică și personalizată sau să aleagă dintre cele 200 de voci pe care instrumentul le pune la dispoziție. Uita-te la instrumentul în uz.

Instrumentul TTS poate spori accesibilitatea și implicarea conținutului patrimoniului cultural, de exemplu prin adăugarea de narațiuni multilingve, bogate din punct de vedere emoțional, pentru a face expozițiile mai atractive pentru diverse categorii de public. În plus, instrumentul oferă o resursă pentru vizitatorii cu deficiențe de vedere, oferind conținut accesibil sub formă de descrieri audio detaliate. Poate transforma documentele istorice în experiențe de povestire audio, permițând utilizatorilor o experiență istorică imersivă.

Dublarea video sau narațiunea de la imagine la vorbire

Muzeele și instituțiile culturale se bazează adesea pe videoclipuri pentru a educa și a implica vizitatorii. Cu toate acestea, crearea de versiuni multilingve sau nararea imaginilor silențioase poate fi o provocare. Sistemul SHIFT TTS oferă funcționalitate perfectă pentru dublarea video și generarea de videoclipuri narative din imagini.

Una dintre caracteristicile cheie ale facilității de dublare video permite utilizatorilor să înlocuiască vocea originală într-un videoclip cu un discurs generat de IA (chiar clonarea vocii figurilor istorice), păstrând în același timp cu atenție tonul emoțional al conținutului. Sistemul excelează, de asemenea, în vocalizarea silențioasă a imaginilor, convertind imagini statice prin descrieri de text în videoclipuri narate, făcând conținutul vizual mai accesibil și mai atractiv pentru diverse categorii de public. A se vedea exemplul.

Dublarea video și caracteristicile de narațiune imagine-vorbire permit muzeelor să creeze versiuni multilingve ale conținutului lor video, lărgind accesibilitatea pentru publicul internațional. Aceste instrumente pot fi folosite pentru a adăuga narațiune operelor de artă și artefactelor istorice în exponatele digitale, oferind o povestire mai bogată și mai interesantă, care îmbunătățește experiența vizitatorilor. Prin integrarea vocilor generate de IA, instrumentul SHIFT TTS poate face experiențele muzeale online mai interactive și mai accesibile, în special pentru cei care pot avea deficiențe de vedere sau preferă conținutul audio.

Clonare vocală pentru narațiune personalizată

Una dintre cele mai inovatoare caracteristici ale SHIFT TTS este capacitatea sa de clonare a vocii, permițând utilizatorilor să reproducă vocea unui vorbitor pentru narațiune. Această caracteristică este deosebit de utilă pentru păstrarea vocilor figurilor istorice sau ale naratorilor, oferind o modalitate unică și autentică de a aduce istoria la viață.

Utilizatorii pot încărca un scurt eșantion audio, iar SHIFT TTS va genera un discurs care imită vocea persoanei. Acest lucru asigură că vocea clonată păstrează emoțiile autentice și caracteristicile de vorbire, creând o experiență mai realistă și mai antrenantă. Caracteristica de clonare a vocii deschide posibilități de povestire personalizată, în special pentru expozițiile istorice, unde figuri precum Andy Warhol sau Salvador Dalí și-ar putea clona vocile pentru a-și povesti propriile povești, oferind o legătură mai profundă cu conținutul.

Clonarea vocii permite recrearea înregistrărilor istorice pierdute sau incomplete, readucând la viață vocile pierdute de mult timp pentru ca publicul să le experimenteze. Curatorii muzeului, creatorii de conținut și alții pot beneficia, de asemenea, de această caracteristică prin utilizarea propriilor voci pentru narațiuni, asigurând o notă consistentă și personală ghidurilor audio, expozițiilor și altor tipuri de conținut.

Peisaje sonore generate de IA pentru o narațiune imersivă

Pentru a crea experiențe complet imersive, SHIFT a testat integrarea AudioGen, un instrument AI care generează sunete realiste din descrieri de text. Această caracteristică permite adăugarea de sunete de mediu sau ambientale la expoziții, îmbogățindu-le cu peisaje sonore personalizate care se potrivesc cu perioada de timp specifică sau cu setarea descrisă în expoziție. Piețele antice, câmpurile de luptă sau spațiile sacre pot fi aduse la viață cu sunete de fundal autentice, adecvate epocii, adăugând un strat senzorial povestirii care adâncește legătura vizitatorilor cu istoria. Instrumentul funcționează în mai multe limbi, asigurând accesibilitatea sa pentru publicul internațional și sporind implicarea interculturală. Urmăriți-l în acțiune cu imaginea principală a acestei piese de mai jos!

Această caracteristică se poate dovedi, de asemenea, extrem de eficientă în tururile muzeelor de realitate virtuală (VR) și realitate augmentată (AR), unde sunetul imersiv poate spori semnificativ sentimentul de prezență și realism. Peisajele sonore pot îmbunătăți, de asemenea, accesibilitatea pentru vizitatorii cu deficiențe de vedere, oferind descrieri audio detaliate ale setărilor și evenimentelor istorice.

De ce sunt importante aceste instrumente pentru profesioniștii din domeniul patrimoniului cultural

Se așteaptă din ce în ce mai mult ca muzeele și instituțiile culturale să implice un public global, multilingv și divers. Cu toate acestea, crearea unui conținut imersiv necesită timp, resurse și expertiză care lipsesc multor instituții.

Setul de instrumente audio SHIFT sprijină accesibilitatea oferind descrieri audio captivante pentru vizitatorii cu deficiențe de vedere și narațiune multilingvă pentru o gamă diversă de audiențe, asigurându-se că toată lumea poate interacționa cu conținutul. De asemenea, sporește implicarea prin utilizarea discursului afectiv și a peisajelor sonore bazate pe IA pentru a scufunda publicul în istorie și cultură, creând o experiență captivantă.

Aflați mai multe

Toate instrumentele din SHIFT Audio Toolkit vor fi disponibile sub un singur acoperiș pe platforma SHIFT, care este în prezent în curs de dezvoltare. Această platformă va oferi acces ușor la toate instrumentele SHIFT, inclusiv sistemul Text-to-Speech, dublarea video, generarea de sunet și multe altele.

Pentru a fi la curent cu cele mai recente evoluții, caracteristici noi și lansarea oficială a platformei SHIFT, vă rugăm să vizitați site-ul SHIFT și să vă înscrieți la buletinul informativ SHIFT pentru a primi actualizări, sfaturi și anunțuri în timp util direct în căsuța dvs. de e-mail.

Acest articol a fost scris de Dionyssos Kounadis-Bastian, Senior AI Researcher, audEERING GmbH și Maria Kagkelidou, Communications Manager, The Heritage Management Organization.