Susipažinkite su kultūros paveldui skirtu SHIFT garso priemonių rinkiniu

Paskelbta 2025 m. gegužės 15 d. pagal

Maria Kagkelidou (Heritage Management Organisation)

SHIFT yra pagal ES programą „Europos horizontas“ finansuojamas projektas, kuriuo siekiama parengti specializuotus priemonių rinkinius, pritaikytus įvairiems dalyvavimo kultūros paveldo veikloje aspektams. Pirmasis pristatytas yra "SHIFT Audio Toolkit", kuris pradeda dirbtiniu intelektu pagrįstą balso sintezę, emocijomis pagrįstą kalbą, daugiakalbį prieinamumą ir įtraukiančius garsovaizdžius.

Šis priemonių rinkinys, kurį sukūrė SHIFT konsorciumas su pirmaujančia "audEERING", panaudos teksto į kalbą (TTS), emocijų atpažinimo, vaizdo dubliavimo ir garso generavimo galią, kad sukurtų įtraukiančią patirtį, kuri atneštų paveldą į gyvenimą.

SHIFT TTS: emocinė daugiakalbė teksto konvertavimo į kalbą sistema;

SHIFT TTS yra teksto į kalbą sistema (technologija, kuri gali garsiai skaityti bet kokį rašytinį tekstą), kuri sukuria aukštos kokybės, emociškai išraiškingą kalbą keliomis kalbomis. Skirtingai nuo tradicinių TTS įrankių, kurie skamba robotiškai, SHIFT TTS apima emocinę kalbos sintezę, o tai reiškia, kad ji gali išreikšti emocijas, pvz., Jaudulį, ramybę ar iškilmingumą, remdamasi jos pasakojamu turiniu.

SHIFT TTS įrankis palaiko kelias kalbas, įskaitant albanų, vengrų, rumunų, serbų, vokiečių, graikų ir anglų kalbas, su daugiau nei 200 emocingų anglų balsų su gimtąja ir ne gimtąja akcentais. Priemonių rinkinys veikia su subtitrais arba paprastojo teksto įvestimi ir siūlo balso personalizavimą, leidžiantį naudotojams klonuoti balsus unikaliam ir individualiam pasakojimui arba pasirinkti iš 200 balsų, kuriuos suteikia priemonė. Stebėkite naudojamą įrankį.

TTS priemonė gali pagerinti kultūros paveldo turinio prieinamumą ir įtraukimą, pavyzdžiui, pridedant daugiakalbių, emociškai turtingų pasakojimų, kad parodos būtų patrauklesnės įvairiai auditorijai. Be to, priemonė suteikia išteklių regos sutrikimų turintiems lankytojams, siūlydama prieinamą turinį išsamių garsinių aprašymų forma. Tai gali paversti istorinius dokumentus patraukliomis garso pasakojimo patirtimis, leidžiančiomis vartotojams pasinerti į istorinę patirtį.

Vaizdo dubliavimas arba pasakojimas iš vaizdo į kalbą

Muziejai ir kultūros įstaigos dažnai naudojasi vaizdo įrašais lankytojams šviesti ir įtraukti. Tačiau kurti daugiakalbes versijas arba pasakoti tylius vaizdus gali būti sudėtinga. SHIFT TTS sistema siūlo sklandžią vaizdo įrašų dubliavimo ir pasakotų vaizdo įrašų generavimo iš vaizdų funkciją.

Vienas iš pagrindinių vaizdo įrašų dubliavimo funkcijos bruožų leidžia vartotojams pakeisti originalų vaizdo įrašo balsą dirbtinio intelekto sukurta kalba (net klonuojant istorinių figūrų balsą), kartu atidžiai išsaugant emocinį turinio toną. Sistema taip pat išsiskiria tyliu vaizdo vokalizavimu, nejudančių vaizdų konvertavimu per tekstinius aprašymus į pasakotus vaizdo įrašus, vizualinio turinio prieinamumu ir patrauklumu įvairiai auditorijai. Žr. pavyzdį.

Vaizdo dubliavimas ir vaizdo į kalbą pasakojimo funkcijos leidžia muziejams kurti daugiakalbes savo vaizdo turinio versijas, išplečiant prieinamumą tarptautinei auditorijai. Šios priemonės gali būti naudojamos siekiant pridėti pasakojimą prie meno kūrinių ir istorinių artefaktų skaitmeniniuose eksponatuose, suteikiant turtingesnį, patrauklesnį pasakojimą, kuris pagerina lankytojų patirtį. Integruojant DI sukurtus balsus, SHIFT TTS priemonė gali padaryti internetinę muziejų patirtį interaktyvesnę ir prieinamesnę, ypač tiems, kurie gali turėti regos sutrikimų arba nori garso turinio.

Balso klonavimas asmeniniam pasakojimui

Vienas iš novatoriškiausių SHIFT TTS bruožų yra jo balso klonavimo galimybė, leidžianti naudotojams atkartoti kalbėtojo balsą pasakojimui. Ši savybė ypač naudinga siekiant išsaugoti istorinių asmenybių ar pasakotojų balsus, suteikiant unikalų ir autentišką būdą atgaivinti istoriją.

Naudotojai gali įkelti trumpą garso imtį, o SHIFT TTS generuos kalbą, imituojančią asmens balsą. Tai užtikrina, kad klonuotas balsas išsaugotų autentiškas emocijas ir kalbos savybes, sukurdamas realistiškesnę ir patrauklesnę patirtį. Balso klonavimo funkcija atveria galimybes asmeniniam pasakojimui, ypač istorinėms parodoms, kuriose tokie asmenys kaip Andy Warholas ar Salvadoras Dalí galėtų klonuoti savo balsus, kad galėtų pasakoti savo istorijas, suteikiant gilesnį ryšį su turiniu.

Balso klonavimas leidžia atkurti prarastus ar neišsamius istorinius įrašus, sugrąžindamas senus balsus į gyvenimą, kad žiūrovai galėtų patirti. Muziejaus kuratoriai, turinio kūrėjai ir kiti taip pat gali pasinaudoti šia funkcija, naudodamiesi savo balsais pasakojimams, užtikrindami nuoseklų ir asmeninį ryšį su garso gidais, parodomis ir kitomis turinio rūšimis.

Dirbtiniu intelektu sukurti garso peizažai, skirti įtraukiančiam pasakojimui

Siekdama sukurti visiškai įtraukiančią patirtį, SHIFT išbandė "AudioGen" - DI įrankio, kuris iš teksto aprašymų generuoja realistiškus garso vaizdus, integravimą. Ši funkcija leidžia papildyti parodas aplinkos ar aplinkos fono garsais, praturtindama juos specialiai pritaikytais garso peizažais, atitinkančiais konkretų parodoje aprašytą laikotarpį ar aplinką. Senovės rinkos, mūšio laukai ar šventos erdvės gali būti atgaivintos autentiškais, erą atitinkančiais fono garsais, pridedant jutiminį sluoksnį prie pasakojimo, kuris gilina lankytojų ryšį su istorija. Priemonė veikia keliomis kalbomis, užtikrinant jos prieinamumą tarptautinei auditorijai ir didinant tarpkultūrinį dalyvavimą. Žiūrėti jį į veiksmą su švino įvaizdį šio gabalo žemiau!

Ši funkcija taip pat gali būti labai veiksminga virtualiosios realybės (VR) ir papildytosios realybės (AR) muziejų ekskursijose, kuriose svaiginantis garsas gali žymiai sustiprinti buvimo ir realizmo jausmą. Garsovaizdžiai taip pat gali pagerinti prieinamumą regos sutrikimų turintiems lankytojams, siūlant išsamius istorinių nustatymų ir įvykių garsinius aprašymus.

Kodėl šios priemonės svarbios kultūros paveldo specialistams

Tikimasi, kad muziejai ir kultūros įstaigos vis labiau pritrauks pasaulinę, daugiakalbę ir įvairią auditoriją. Tačiau įtraukiančio turinio kūrimui reikia laiko, išteklių ir patirties, kurių daugeliui institucijų trūksta.

SHIFT garso priemonių rinkinys palaiko prieinamumą teikdamas patrauklius garso aprašymus regos sutrikimų turintiems lankytojams ir daugiakalbį pasakojimą įvairiai auditorijai, užtikrindamas, kad kiekvienas galėtų susipažinti su turiniu. Jis taip pat padidina įsitraukimą, naudodamas dirbtiniu intelektu pagrįstą emocinę kalbą ir garso takelius, kad panardintų auditoriją į istoriją ir kultūrą, sukurdamas patrauklią patirtį.

Sužinokite daugiau

Visi "SHIFT Audio Toolkit" įrankiai bus prieinami po vienu stogu šiuo metu kuriamoje "SHIFT" platformoje. Ši platforma suteiks lengvą prieigą prie visų SHIFT įrankių, įskaitant "Text-to-Speech" sistemą, vaizdo dubliavimą, garso takelio generavimą ir dar daugiau.

Norėdami gauti naujausią informaciją apie naujausius pokyčius, naujas funkcijas ir oficialų SHIFT platformos paleidimą, apsilankykite SHIFT svetainėje ir užsiprenumeruokite SHIFT naujienlaiškį, kad laiku gautumėte naujienas, patarimus ir pranešimus tiesiai į savo pašto dėžutę.

Šį postą parašė Dionyssos Kounadis-Bastian, vyresnysis AI tyrėjas, audEERING GmbH ir Maria Kagkelidou, Paveldo valdymo organizacijos komunikacijos vadovė.