Zapoznaj się z zestawem narzędzi SHIFT Audio Toolkit dla dziedzictwa kulturowego

Opublikowano 15 maja 2025 przez

Maria Kagkelidou (Heritage Management Organisation)

SHIFT to projekt finansowany w ramach unijnego programu „Horyzont Europa” mający na celu opracowanie specjalistycznych zestawów narzędzi dostosowanych do różnych aspektów zaangażowania w dziedzictwo kulturowe. Pierwszym, który zostanie zaprezentowany, jest zestaw narzędzi SHIFT Audio Toolkit, który jest pionierem syntezy głosu opartej na sztucznej inteligencji, mowy opartej na emocjach, wielojęzycznej dostępności i wciągających krajobrazów dźwiękowych.

Stworzony przez konsorcjum SHIFT z audEERING, ten zestaw narzędzi wykorzysta moc zamiany tekstu na mowę (TTS), rozpoznawania emocji, dubbingu wideo i generowania krajobrazu dźwiękowego, aby stworzyć wciągające doświadczenia, które ożywiają dziedzictwo.

SHIFT TTS: afektywny, wielojęzyczny system zamiany tekstu na mowę

SHIFT TTS to system zamiany tekstu na mowę (technologia, która może czytać na głos dowolny tekst pisany), który generuje wysokiej jakości, ekspresyjną emocjonalnie mowę w wielu językach. W przeciwieństwie do tradycyjnych narzędzi TTS, które brzmią jak roboty, SHIFT TTS zawiera afektywną syntezę mowy – co oznacza, że może wyrażać emocje, takie jak podniecenie, spokój lub powaga w oparciu o treść, którą opowiada.

Narzędzie SHIFT TTS obsługuje wiele języków, w tym albański, węgierski, rumuński, serbski, niemiecki, grecki i angielski, z ponad 200 afektywnymi głosami w języku angielskim z akcentami natywnymi i nienatywnymi. Zestaw narzędzi współpracuje z napisami lub zwykłym tekstem i oferuje personalizację głosu, umożliwiając użytkownikom klonowanie głosów w celu uzyskania unikalnej i spersonalizowanej narracji lub wybranie spośród 200 głosów udostępnianych przez narzędzie. Obserwuj narzędzie w użyciu.

Narzędzie TTS może zwiększyć dostępność i zaangażowanie treści dziedzictwa kulturowego, na przykład poprzez dodanie wielojęzycznych, bogatych emocjonalnie narracji, aby wystawy były bardziej atrakcyjne dla różnych odbiorców. Ponadto narzędzie stanowi zasób dla osób niedowidzących, oferując dostępną treść w postaci szczegółowych opisów audio. Może przekształcić dokumenty historyczne w angażujące wrażenia audio, umożliwiając użytkownikom wciągające doświadczenie historyczne.

Dubbing wideo lub narracja typu image-to-speech

Muzea i instytucje kultury często polegają na filmach, aby edukować i angażować odwiedzających. Jednak tworzenie wielojęzycznych wersji lub opowiadanie cichych obrazów może być trudne. System SHIFT TTS oferuje bezproblemową funkcjonalność dubbingu wideo i generowania opowiedzianych filmów z obrazów.

Jedna z kluczowych cech funkcji dubbingu wideo pozwala użytkownikom zastąpić oryginalny głos w filmie mową wygenerowaną przez sztuczną inteligencję (nawet klonowanie głosu postaci historycznych), zachowując jednocześnie emocjonalny ton treści. System wyróżnia się również cichą wokalizacją obrazu, przekształcając nieruchome obrazy za pomocą opisów tekstowych w opowiadane filmy, czyniąc treści wizualne bardziej dostępnymi i angażującymi dla różnych odbiorców. Zob. przykład.

Funkcje dubbingu wideo i narracji obrazu do mowy umożliwiają muzeom tworzenie wielojęzycznych wersji ich treści wideo, poszerzając dostępność dla międzynarodowej publiczności. Narzędzia te można wykorzystać do dodania narracji do dzieł sztuki i historycznych artefaktów w cyfrowych eksponatach, zapewniając bogatsze, bardziej wciągające opowiadanie historii, które poprawia wrażenia odwiedzających. Dzięki integracji lektorów generowanych przez sztuczną inteligencję narzędzie SHIFT TTS może uczynić muzealne doświadczenia online bardziej interaktywnymi i dostępnymi, zwłaszcza dla tych, którzy mogą mieć zaburzenia widzenia lub preferować treści audio.

Klonowanie głosu do spersonalizowanej narracji

Jedną z najbardziej innowacyjnych cech SHIFT TTS jest jego zdolność do klonowania głosu, umożliwiająca użytkownikom powielanie głosu mówcy w celu narracji. Funkcja ta jest szczególnie przydatna do zachowania głosów postaci historycznych lub narratorów, oferując unikalny i autentyczny sposób ożywiania historii.

Użytkownicy mogą przesłać krótką próbkę dźwięku, a SHIFT TTS wygeneruje mowę, która naśladuje głos danej osoby. Zapewnia to, że sklonowany głos zachowuje autentyczne emocje i cechy mowy, tworząc bardziej realistyczne i angażujące doświadczenie. Funkcja klonowania głosu otwiera możliwości spersonalizowanego opowiadania historii, szczególnie na wystawach historycznych, gdzie postacie takie jak Andy Warhol czy Salvador Dalí mogą mieć sklonowane głosy, aby opowiadać własne historie, oferując głębsze połączenie z treścią.

Klonowanie głosu umożliwia odtwarzanie utraconych lub niekompletnych nagrań historycznych, przywracając dawno minione głosy do życia dla publiczności. Kuratorzy muzeów, twórcy treści i inni mogą również korzystać z tej funkcji, wykorzystując własne głosy do narracji, zapewniając spójny i osobisty kontakt z przewodnikami audio, wystawami i innymi rodzajami treści.

Pejzaże dźwiękowe generowane przez sztuczną inteligencję do wciągającej opowieści

Aby stworzyć w pełni wciągające wrażenia, SHIFT przetestował integrację AudioGen, narzędzia AI, które generuje realistyczne pejzaże dźwiękowe z opisów tekstowych. Funkcja ta umożliwia dodawanie do wystaw dźwięków otoczenia lub otoczenia, wzbogacając je o spersonalizowane pejzaże dźwiękowe, które pasują do określonego okresu lub otoczenia opisanego na wystawie. Starożytne rynki, pola bitewne lub święte przestrzenie można ożywić autentycznymi, odpowiednimi dla epoki dźwiękami tła, dodając warstwę sensoryczną do opowieści, która pogłębia połączenie odwiedzających z historią. Narzędzie działa w wielu językach, zapewniając dostęp do międzynarodowej publiczności i zwiększając zaangażowanie międzykulturowe. Obejrzyj go w akcji z głównym obrazem tego utworu poniżej!

Ta funkcja może również okazać się bardzo skuteczna w wycieczkach do muzeów rzeczywistości wirtualnej (VR) i rozszerzonej rzeczywistości (AR), gdzie wciągający dźwięk może znacznie zwiększyć poczucie obecności i realizmu. Pejzaże dźwiękowe mogą również poprawić dostępność dla osób niedowidzących, oferując szczegółowe opisy audio historycznych ustawień i wydarzeń.

Dlaczego narzędzia te są ważne dla osób zawodowo zajmujących się dziedzictwem kulturowym

Coraz częściej oczekuje się, że muzea i instytucje kultury będą angażować globalną, wielojęzyczną i zróżnicowaną publiczność. Tworzenie wciągających treści wymaga jednak czasu, zasobów i wiedzy fachowej, której brakuje wielu instytucjom.

Zestaw narzędzi audio SHIFT wspiera dostępność, zapewniając urzekające audiodeskrypcje dla osób niedowidzących i wielojęzyczną narrację dla różnych grup odbiorców, zapewniając, że każdy może zaangażować się w treść. Zwiększa również zaangażowanie, wykorzystując opartą na sztucznej inteligencji mowę afektywną i pejzaże dźwiękowe, aby zanurzyć odbiorców w historii i kulturze, tworząc urzekające wrażenia.

Dowiedz się więcej

Wszystkie narzędzia w SHIFT Audio Toolkit będą dostępne pod jednym dachem na platformie SHIFT, która jest obecnie w fazie rozwoju. Platforma ta zapewni łatwy dostęp do wszystkich narzędzi SHIFT, w tym systemu Text-to-Speech, dubbingu wideo, generowania krajobrazu dźwiękowego i innych.

Aby być na bieżąco z najnowszymi osiągnięciami, nowymi funkcjami i oficjalnym uruchomieniem platformy SHIFT, odwiedź stronę internetową SHIFT i zapisz się do newslettera SHIFT, aby otrzymywać aktualne aktualizacje, wskazówki i ogłoszenia bezpośrednio na swoją skrzynkę odbiorczą.

Ten post został napisany przez Dionyssos Kounadis-Bastian, Senior AI Researcher, audEERING GmbH i Marię Kagkelidou, Communications Manager, The Heritage Management Organization.