Prozkoumejte sadu nástrojů SHIFT Audio Toolkit pro kulturní dědictví

Publikováno 15. května 2025 podle

Maria Kagkelidou (Heritage Management Organisation)

SHIFT je projekt financovaný z programu EU Horizont Evropa, jehož cílem je vyvinout specializované soubory nástrojů přizpůsobené různým aspektům zapojení do kulturního dědictví. Jako první byla představena sada SHIFT Audio Toolkit, která je průkopníkem syntézy hlasu založené na umělé inteligenci, řeči řízené emocemi, vícejazyčné přístupnosti a pohlcujících zvukových scén.

Vytvořeno konsorciem SHIFT s audEERING, který se ujímá vedení, bude tento Toolkit využívat sílu text-to-speech (TTS), rozpoznávání emocí, dabování videa a generování zvukové krajiny k vytvoření pohlcujících zážitků, které přinášejí dědictví k životu.

SHIFT TTS: afektivní, vícejazyčný systém převodu textu na řeč

SHIFT TTS je text-to-speech systém (technologie, která může číst nahlas jakýkoli psaný text), který generuje vysoce kvalitní, emocionálně expresivní řeč ve více jazycích. Na rozdíl od tradičních nástrojů TTS, které znějí roboticky, SHIFT TTS zahrnuje afektivní syntézu řeči – což znamená, že může vyjadřovat emoce, jako je vzrušení, klid nebo slavnost na základě obsahu, který vypráví.

Nástroj SHIFT TTS podporuje více jazyků, včetně albánštiny, maďarštiny, rumunštiny, srbštiny, němčiny, řečtiny a angličtiny, s více než 200 afektivními anglickými hlasy s nativními a nepůvodními akcenty. Sada nástrojů pracuje s titulky nebo prostým textovým vstupem a nabízí hlasovou personalizaci, která uživatelům umožňuje klonovat hlasy pro jedinečné a přizpůsobené vyprávění nebo si vybrat z 200 hlasů, které nástroj poskytuje. Podívejte se na používaný nástroj.

Nástroj TTS může zlepšit přístupnost a zapojení obsahu kulturního dědictví, například přidáním vícejazyčných, emocionálně bohatých vyprávění, aby byly výstavy poutavější pro rozmanité publikum. Kromě toho nástroj poskytuje zdroj pro zrakově postižené návštěvníky tím, že nabízí přístupný obsah ve formě podrobných zvukových popisů. Dokáže transformovat historické dokumenty do poutavých zvukových příběhových zážitků, což uživatelům umožňuje pohlcující historický zážitek.

Video dabing nebo vyprávění z obrazu na řeč

Muzea a kulturní instituce se často spoléhají na videa, která vzdělávají a zapojují návštěvníky. Vytváření vícejazyčných verzí nebo vyprávění tichých obrázků však může být náročné. Systém SHIFT TTS nabízí bezproblémové funkce pro dabování videa a generování vyprávěných videí z obrázků.

Jeden z klíčových rysů zařízení pro dabování videa umožňuje uživatelům nahradit původní hlas ve videu řečí generovanou umělou inteligencí (dokonce klonováním hlasu historických postav) při pečlivém zachování emocionálního tónu obsahu. Systém také vyniká tichým vokalizací obrazu, konverzí statických snímků prostřednictvím textových popisů na vyprávěná videa, čímž se vizuální obsah stává přístupnějším a poutavějším pro různé publikum. Viz příklad .

Funkce dabování videa a vyprávění obrazu na řeč umožňují muzeím vytvářet vícejazyčné verze svého videoobsahu, čímž se rozšiřuje přístupnost pro mezinárodní publikum. Tyto nástroje mohou být použity k přidání vyprávění k uměleckým dílům a historickým artefaktům v digitálních exponátech a poskytují bohatší a poutavější vyprávění, které zvyšuje zážitek návštěvníků. Díky integraci hlasových komentářů vytvořených umělou inteligencí může nástroj SHIFT TTS učinit zážitky z on-line muzeí interaktivnějšími a přístupnějšími, zejména pro ty, kteří mohou mít zrakové postižení nebo upřednostňují zvukový obsah.

Klonování hlasu pro personalizované vyprávění

Jedním z nejinovativnějších rysů SHIFT TTS je jeho schopnost klonovat hlas, která uživatelům umožňuje replikovat hlas mluvčího pro vyprávění. Tato funkce je zvláště užitečná pro zachování hlasů historických postav nebo vypravěčů a nabízí jedinečný a autentický způsob, jak přivést historii k životu.

Uživatelé mohou nahrát krátký zvukový vzorek a SHIFT TTS generuje řeč, která napodobuje hlas osoby. To zajišťuje, že klonovaný hlas si zachovává autentické emoce a charakteristiky řeči, což vytváří realističtější a poutavější zážitek. Funkce klonování hlasu otevírá možnosti pro personalizované vyprávění příběhů, zejména pro historické výstavy, kde by postavy, jako je Andy Warhol nebo Salvador Dalí, mohly mít své hlasy klonované, aby vyprávěly své vlastní příběhy, které nabízejí hlubší spojení s obsahem.

Klonování hlasu umožňuje zrekonstruovat ztracené nebo neúplné historické nahrávky a přivést dlouho ztracené hlasy zpět k životu, aby je diváci mohli zažít. Kurátoři muzeí, tvůrci obsahu a další mohou také těžit z této funkce tím, že používají své vlastní hlasy pro vyprávění, což zajišťuje konzistentní a osobní kontakt s audio průvodci, výstavami a dalšími typy obsahu.

Zvukové scény vytvořené umělou inteligencí pro pohlcující vyprávění příběhů

Chcete-li vytvořit plně pohlcující zážitky, SHIFT testoval integraci AudioGen, AI nástroj, který generuje realistické zvukové scény z textových popisů. Tato funkce umožňuje přidání zvuků prostředí nebo okolního pozadí na výstavy a obohacuje je o přizpůsobené zvukové scény, které odpovídají konkrétnímu časovému období nebo nastavení popsanému v exponátu. Starověké trhy, bojiště nebo posvátné prostory mohou být přivedeny k životu autentickými zvuky pozadí vhodnými pro éru, které přidávají smyslovou vrstvu k vyprávění, která prohlubuje spojení návštěvníků s historií. Nástroj funguje ve více jazycích, zajišťuje jeho dostupnost pro mezinárodní publikum a posiluje mezikulturní zapojení. Sledujte to v akci s hlavním obrázkem tohoto kusu níže!

Tato funkce se také může ukázat jako vysoce účinná v prohlídkách muzeí virtuální reality (VR) a rozšířené reality (AR), kde pohlcující zvuk může výrazně posílit pocit přítomnosti a realismu. Zvukové scény mohou také zlepšit přístupnost pro zrakově postižené návštěvníky a nabídnout podrobné zvukové popisy historických nastavení a událostí.

Proč jsou tyto nástroje důležité pro odborníky v oblasti kulturního dědictví

Od muzeí a kulturních institucí se stále více očekává, že zapojí globální, mnohojazyčné a rozmanité publikum. Vytváření pohlcujícího obsahu však vyžaduje čas, zdroje a odborné znalosti, které mnoha institucím chybí.

Soubor zvukových nástrojů SHIFT podporuje přístupnost tím, že poskytuje podmanivé zvukové popisy pro zrakově postižené návštěvníky a vícejazyčné vyprávění pro různorodou škálu publika, čímž zajišťuje, že se s obsahem může zapojit každý. Zlepšuje také zapojení tím, že využívá afektivní řeč a zvukové prostředí řízené umělou inteligencí k ponoření publika do historie a kultury, čímž vytváří podmanivý zážitek.

Zjistit více

Všechny nástroje v sadě SHIFT Audio Toolkit budou k dispozici pod jednou střechou na platformě SHIFT, která je v současné době ve vývoji. Tato platforma nabídne snadný přístup ke všem nástrojům SHIFT, včetně systému Text-to-Speech, dabingu videa, generování zvukové krajiny a dalších.

Chcete-li být informováni o nejnovějším vývoji, nových funkcích a oficiálním spuštění platformy SHIFT, navštivte webové stránky SHIFT a přihlaste se k odběru zpravodaje SHIFT, abyste dostávali včasné aktualizace, tipy a oznámení přímo do vaší e-mailové schránky.

Tento příspěvek napsali Dionyssos Kounadis-Bastian, Senior AI Researcher, audEERING GmbH a Maria Kagkelidou, manažerka komunikace, The Heritage Management Organization.