Разгледайте аудио инструментариума SHIFT за културното наследство

Публикувано на 15 май 2025 г. от

Maria Kagkelidou (Heritage Management Organisation)

SHIFT е проект, финансиран от програмата на ЕС „Хоризонт Европа“, за разработване на специализирани набори от инструменти, съобразени с различните аспекти на ангажираността в областта на културното наследство. Първият, който ще бъде представен, е SHIFT Audio Toolkit, който е пионер в синтеза на глас, задвижван от изкуствен интелект, емоционалната реч, многоезичната достъпност и потапящите звукови пейзажи.

Създаден от консорциума SHIFT с audEERING, този инструментариум ще използва силата на текст към реч (TTS), разпознаване на емоции, видео дублаж и генериране на звуков пейзаж, за да създаде потапящи преживявания, които вдъхват живот на наследството.

SHIFT TTS: афективна, многоезична система от текст към реч

SHIFT TTS е система от текст към реч (технология, която може да чете на глас всеки писмен текст), която генерира висококачествена, емоционално експресивна реч на множество езици. За разлика от традиционните TTS инструменти, които звучат роботизирано, SHIFT TTS включва афективен синтез на речта — което означава, че може да изразява емоции като вълнение, спокойствие или тържественост въз основа на съдържанието, което разказва.

Инструментът SHIFT TTS поддържа множество езици, включително албански, унгарски, румънски, сръбски, немски, гръцки и английски, с над 200 емоционални английски гласа с родни и неместни акценти. Инструментариумът работи със субтитри или въвеждане на обикновен текст и предлага персонализиране на гласа, което позволява на потребителите да клонират гласове за уникален и персонализиран разказ или да избират от 200-те гласа, които инструментът предоставя. Гледайте инструмента в употреба.

Инструментът за ТТС може да подобри достъпността и ангажираността на съдържанието на културното наследство, например чрез добавяне на многоезични, емоционално богати разкази, за да станат изложбите по-привлекателни за разнообразна аудитория. Освен това инструментът предоставя ресурс за посетители с увредено зрение, като предлага достъпно съдържание под формата на подробни аудио описания. Тя може да превърне историческите документи в ангажиращо аудио разказване на истории, което позволява на потребителите да се потопят в историческо преживяване.

Видео дублаж или разказ от образ към реч

Музеите и културните институции често разчитат на видеоклипове, за да образоват и ангажират посетителите. Създаването на многоезични версии или разказването на тихи изображения обаче може да бъде предизвикателство. Системата SHIFT TTS предлага безпроблемна функционалност за дублаж на видео и генериране на разказвани видеоклипове от изображения.

Една от ключовите характеристики на функцията за дублаж на видео позволява на потребителите да заменят оригиналния глас във видео с реч, генерирана от изкуствен интелект (дори клониране на гласа на исторически фигури), като внимателно запазват емоционалния тон на съдържанието. Системата също така превъзхожда мълчаливата вокализация на изображенията, превръщайки неподвижните изображения чрез текстови описания в разказвани видеоклипове, правейки визуалното съдържание по-достъпно и ангажиращо за различни аудитории. Вж. пример.

Видео дублажът и функциите за разказване на изображения към реч позволяват на музеите да създават многоезични версии на своето видео съдържание, като разширяват достъпността за международната публика. Тези инструменти могат да се използват за добавяне на разказ към произведения на изкуството и исторически артефакти в цифрови експонати, осигурявайки по-богато, по-ангажиращо разказване на истории, което подобрява преживяването на посетителите. Чрез интегрирането на генерирани от ИИ гласови команди инструментът SHIFT TTS може да направи онлайн музейните изживявания по-интерактивни и достъпни, особено за тези, които може да имат зрителни увреждания или предпочитат аудио-базирано съдържание.

Клониране на глас за персонализирано разказване

Една от най-иновативните характеристики на SHIFT TTS е способността му за клониране на глас, което позволява на потребителите да възпроизвеждат гласа на говорещия за разказване. Тази функция е особено полезна за запазване на гласовете на исторически фигури или разказвачи, предлагайки уникален и автентичен начин за съживяване на историята.

Потребителите могат да качат кратка аудио извадка, а SHIFT TTS ще генерира реч, която имитира гласа на лицето. Това гарантира, че клонираният глас запазва автентичните емоции и речеви характеристики, създавайки по-реалистично и ангажиращо преживяване. Функцията за клониране на гласове отваря възможности за персонализирано разказване на истории, особено за исторически изложби, където фигури като Анди Уорхол или Салвадор Дали биха могли да клонират гласовете си, за да разкажат собствените си истории, предлагайки по-дълбока връзка със съдържанието.

Клонирането на гласове дава възможност за възпроизвеждане на изгубени или непълни исторически записи, връщайки отдавна отминали гласове към живота, за да могат публиката да ги преживее. Музейните куратори, създателите на съдържание и други също могат да се възползват от тази функция, като използват собствените си гласове за разказвания, осигурявайки последователно и лично докосване до аудио ръководства, изложби и други видове съдържание.

Генерирани от ИИ звукови пейзажи за завладяващо разказване на истории

За да създаде напълно завладяващи изживявания, SHIFT тества интегрирането на AudioGen, инструмент за изкуствен интелект, който генерира реалистични звукови пейзажи от текстови описания. Тази функция позволява добавянето на звуци от околната среда или околния фон към изложбите, като ги обогатява с персонализирани звукови пейзажи, които съответстват на конкретния период от време или настройка, описани в изложбата. Древните пазари, бойни полета или свещени пространства могат да бъдат съживени с автентични, подходящи за епохата фонови звуци, добавяйки сензорен слой към разказването на истории, който задълбочава връзката на посетителите с историята. Инструментът работи на множество езици, като гарантира достъпността му за международната публика и засилва междукултурната ангажираност. Гледайте го в действие с водещата снимка на това парче по-долу!

Тази функция може да се окаже много ефективна и в музейните обиколки на виртуалната реалност (VR) и разширената реалност (AR), където потапящото аудио може значително да подобри чувството за присъствие и реализъм. Звуковите пейзажи могат също така да подобрят достъпността за посетители с увредено зрение, като предлагат подробни аудио описания на исторически настройки и събития.

Защо тези инструменти са от значение за специалистите в областта на културното наследство

От музеите и културните институции все по-често се очаква да ангажират глобална, многоезична и разнообразна публика. Създаването на завладяващо съдържание обаче изисква време, ресурси и експертен опит, които липсват на много институции.

Аудио инструментариумът SHIFT поддържа достъпността, като предоставя завладяващи аудио описания за посетители с увредено зрение и многоезичен разказ за разнообразен кръг от аудитории, като гарантира, че всеки може да се ангажира със съдържанието. Той също така подобрява ангажираността, като използва задвижвани от ИИ афективни речи и звукови пейзажи, за да потопи публиката в историята и културата, създавайки завладяващо преживяване.

Научете повече

Всички инструменти в SHIFT Audio Toolkit ще бъдат достъпни под един покрив на платформата SHIFT, която в момента се разработва. Тази платформа ще предлага лесен достъп до всички SHIFT инструменти, включително системата Text-to-Speech, видео дублаж, генериране на звуков пейзаж и др.

За да бъдете информирани за най-новите разработки, нови функции и официалното стартиране на платформата SHIFT, моля, посетете уебсайта на SHIFT и се регистрирайте за бюлетина на SHIFT, за да получавате навременни актуализации, съвети и съобщения директно във входящата си поща.

Тази публикация е написана от Дионисос Кунадис-Бастиан, старши изследовател на AI, audEERING GmbH и Мария Кагкелиду, мениджър комуникации, The Heritage Management Organization.