Raziščite SHIFT Audio Toolkit za kulturno dediščino

Objavljeno 15. maj 2025 po

Maria Kagkelidou (Heritage Management Organisation)

SHIFT je projekt, ki se financira iz programa EU Obzorje Evropa za razvoj specializiranih orodij, prilagojenih različnim vidikom sodelovanja na področju kulturne dediščine. Prvi, ki bo predstavljen, je SHIFT Audio Toolkit, ki je pionir na področju sinteze glasu, ki temelji na umetni inteligenci, govora, ki temelji na čustvih, večjezične dostopnosti in potopitvenih zvočnih pokrajin.

Ta zbirka orodij, ki jo je ustvaril konzorcij SHIFT z vodilno vlogo audEERING, bo izkoristila moč pretvorbe besedila v govor (TTS), prepoznavanja čustev, video sinhronizacije in ustvarjanja zvočne krajine za ustvarjanje potopitvenih izkušenj, ki prinašajo dediščino v življenje.

SHIFT TTS: afektiven večjezični sistem za pretvorbo besedila v govor

SHIFT TTS je sistem za pretvorbo besedila v govor (tehnologija, ki lahko glasno prebere katero koli pisno besedilo), ki ustvarja visokokakovosten, čustveno izrazen govor v več jezikih. Za razliko od tradicionalnih orodij TTS, ki zvenijo robotsko, SHIFT TTS vključuje afektivno sintezo govora, kar pomeni, da lahko izraža čustva, kot so razburjenje, umirjenost ali slovesnost, na podlagi vsebine, ki jo pripoveduje.

Orodje SHIFT TTS podpira več jezikov, vključno z albanščino, madžarščino, romunščino, srbščino, nemščino, grščino in angleščino, z več kot 200 afektivnimi angleškimi glasovi z maternimi in neavtohtonimi poudarki. Orodje deluje s podnapisi ali vnosom navadnega besedila in ponuja prilagajanje glasu, kar uporabnikom omogoča, da klonirajo glasove za edinstveno in prilagojeno pripoved ali izbirajo med 200 glasovi, ki jih omogoča orodje. Oglejte si orodje v uporabi.

Orodje TTS lahko izboljša dostopnost in vključevanje vsebin kulturne dediščine, na primer z dodajanjem večjezičnih, čustveno bogatih pripovedi, da bi bile razstave bolj zanimive za raznoliko občinstvo. Poleg tega orodje zagotavlja vir za slabovidne obiskovalce, saj ponuja dostopno vsebino v obliki podrobnih zvočnih opisov. Zgodovinske dokumente lahko preoblikuje v privlačne izkušnje zvočnega pripovedovanja zgodb, kar uporabnikom omogoča poglobljeno zgodovinsko izkušnjo.

Sinhronizacija videa ali pripovedovanje iz slike v govor

Muzeji in kulturne ustanove se pogosto zanašajo na videoposnetke za izobraževanje in vključevanje obiskovalcev. Vendar je lahko ustvarjanje večjezičnih različic ali pripovedovanje tihih slik izziv. Sistem SHIFT TTS ponuja brezhibno funkcionalnost za sinhronizacijo videoposnetkov in ustvarjanje nariranih videoposnetkov iz slik.

Ena od ključnih značilnosti video sinhronizacije omogoča uporabnikom, da prvotni glas v videu nadomestijo z govorom, ki ga ustvarja umetna inteligenca (celo kloniranje glasu zgodovinskih osebnosti), hkrati pa skrbno ohranjajo čustveni ton vsebine. Sistem odlikuje tudi tiho vokalizacijo slik, pretvarjanje mirujočih slik prek besedilnih opisov v narirane videoposnetke, zaradi česar je vizualna vsebina dostopnejša in privlačnejša za raznoliko občinstvo. Glej primer.

Funkcije sinhronizacije videoposnetkov in pripovedovanja slik v govor omogočajo muzejem, da ustvarijo večjezične različice svojih video vsebin in s tem razširijo dostopnost za mednarodno občinstvo. Ta orodja se lahko uporabljajo za dodajanje pripovedi umetniškim delom in zgodovinskim artefaktom v digitalnih eksponatih, kar zagotavlja bogatejše in privlačnejše pripovedovanje zgodb, ki izboljšuje izkušnjo obiskovalcev. Orodje SHIFT TTS lahko z vključitvijo glasovnih upravljalnikov, ki jih ustvarja umetna inteligenca, zagotovi, da bodo spletne muzejske izkušnje bolj interaktivne in dostopne, zlasti za tiste, ki imajo morda težave z vidom ali raje uporabljajo zvočno vsebino.

Glasovno kloniranje za osebno pripovedovanje

Ena od najbolj inovativnih značilnosti sistema SHIFT TTS je njegova zmožnost kloniranja glasu, ki uporabnikom omogoča posnemanje glasu govorca za pripovedovanje. Ta funkcija je še posebej uporabna za ohranjanje glasov zgodovinskih osebnosti ali pripovedovalcev, ki ponujajo edinstven in avtentičen način za oživljanje zgodovine.

Uporabniki lahko naložijo kratek zvočni vzorec, SHIFT TTS pa bo ustvaril govor, ki posnema glas osebe. To zagotavlja, da klonirani glas ohranja pristna čustva in govorne značilnosti, kar ustvarja bolj realistično in privlačno izkušnjo. Funkcija kloniranja glasu odpira možnosti za osebno pripovedovanje zgodb, zlasti za zgodovinske razstave, kjer bi lahko osebnosti, kot sta Andy Warhol ali Salvador Dalí, klonirale svoje glasove, da bi pripovedovale svoje zgodbe, kar ponuja globljšo povezavo z vsebino.

Kloniranje glasu omogoča poustvarjanje izgubljenih ali nepopolnih zgodovinskih posnetkov, s čimer se davno izgubljeni glasovi vrnejo v življenje občinstvu. Muzejski kustosi, ustvarjalci vsebin in drugi lahko to funkcijo izkoristijo tudi z uporabo lastnih glasov za pripovedovanje, kar zagotavlja dosleden in oseben pridih zvočnih vodnikov, razstav in drugih vrst vsebin.

Zvočne pokrajine, ustvarjene z umetno inteligenco, za poglobljeno pripovedovanje zgodb

Da bi ustvarili popolnoma potopitvene izkušnje, je SHIFT preizkusil integracijo AudioGen, orodja umetne inteligence, ki ustvarja realistične zvočne pokrajine iz besedilnih opisov. Ta funkcija omogoča dodajanje okoljskih ali ambientalnih zvokov v ozadju razstavam in jih obogati s prilagojenimi zvočnimi krajinami, ki ustrezajo določenemu časovnemu obdobju ali nastavitvi, opisani v razstavi. Starodavne trge, bojišča ali svete prostore je mogoče oživiti z avtentičnimi, erotičnimi zvoki ozadja, ki dodajajo čutno plast pripovedovanju zgodb, ki poglablja povezavo obiskovalcev z zgodovino. Orodje deluje v več jezikih, kar zagotavlja njegovo dostopnost mednarodnemu občinstvu in krepi medkulturno udejstvovanje. Oglejte si ga v akciji z vodilno sliko tega kosa spodaj!

Ta funkcija se lahko izkaže za zelo učinkovito tudi na ogledih muzejev virtualne resničnosti (VR) in razširjene resničnosti (AR), kjer lahko potopitveni zvok znatno izboljša občutek prisotnosti in realizma. Zvočne pokrajine lahko izboljšajo tudi dostopnost za slabovidne obiskovalce, saj ponujajo podrobne zvočne opise zgodovinskih nastavitev in dogodkov.

Zakaj so ta orodja pomembna za strokovnjake na področju kulturne dediščine

Od muzejev in kulturnih ustanov se vse bolj pričakuje, da bodo pritegnili svetovno, večjezično in raznoliko občinstvo. Vendar pa ustvarjanje potopitvene vsebine zahteva čas, vire in strokovno znanje, ki ga številne institucije nimajo.

Zvočno orodje SHIFT podpira dostopnost z očarljivimi zvočnimi opisi za slabovidne obiskovalce in večjezičnim pripovedovanjem za raznoliko občinstvo, s čimer zagotavlja, da lahko vsakdo uporablja vsebino. Prav tako krepi angažiranost z uporabo afektivnega govora in zvočnih pokrajin, ki temeljijo na umetni inteligenci, da bi občinstvo potopili v zgodovino in kulturo ter ustvarili privlačno izkušnjo.

Izvedite več

Vsa orodja v kompletu SHIFT Audio Toolkit bodo na voljo pod eno streho na platformi SHIFT, ki je trenutno v razvoju. Ta platforma bo omogočila enostaven dostop do vseh orodij SHIFT, vključno s sistemom Text-to-Speech, video sinhronizacijo, ustvarjanjem zvočne krajine in še več.

Če želite biti obveščeni o najnovejšem razvoju, novih funkcijah in uradnem zagonu platforme SHIFT, obiščite spletno mesto SHIFT in se prijavite na glasilo SHIFT, da boste pravočasno prejemali posodobitve, nasvete in obvestila neposredno v svoj poštni predal.

To delovno mesto sta napisala Dionyssos Kounadis-Bastian, višji raziskovalec umetne inteligence, audEERING GmbH in Maria Kagkelidou, vodja komunikacij, organizacija za upravljanje dediščine.