A SHIFT az EU Horizont Európa programja által finanszírozott projekt, amelynek célja a kulturális örökséggel kapcsolatos szerepvállalás különböző szempontjaihoz igazított speciális eszköztárak kidolgozása. Az első bemutatásra kerülő eszköz a SHIFT Audio Toolkit, amely az AI-alapú hangszintézis, az érzelemvezérelt beszéd, a többnyelvű hozzáférhetőség és a magával ragadó hangképek úttörője.
A SHIFT konzorcium által az audEERING vezetésével létrehozott eszköztár kihasználja a text-to-speech (TTS), az érzelemfelismerés, a videoszinkronizálás és a hangkép-generálás erejét, hogy magával ragadó élményeket hozzon létre, amelyek életre keltik az örökséget.
SHIFT TTS: affektív, többnyelvű szövegfelolvasó rendszer
A SHIFT TTS egy text-to-speech rendszer (olyan technológia, amely képes hangosan felolvasni bármilyen írott szöveget), amely kiváló minőségű, érzelmileg kifejező beszédet generál több nyelven. Ellentétben a hagyományos TTS eszközökkel, amelyek robotikusan hangzanak, a SHIFT TTS magában foglalja az affektív beszédszintézist, ami azt jelenti, hogy olyan érzelmeket fejezhet ki, mint az izgalom, a nyugalom vagy az ünnepélyesség az általa elbeszélt tartalom alapján.
A SHIFT TTS eszköz több nyelvet támogat, beleértve az albán, magyar, román, szerb, német, görög és angol nyelvet, több mint 200 affektív angol hanggal, anyanyelvi és nem anyanyelvi ékezetekkel. Az eszköztár feliratokkal vagy egyszerű szövegbevitellel működik, és hangalapú személyre szabást kínál, lehetővé téve a felhasználók számára, hogy egyedi és személyre szabott narráció céljából hangokat klónozzanak, vagy válasszanak az eszköz által elérhetővé tett 200 hang közül. Nézze meg a használatban lévő eszközt.
A TTS eszköz javíthatja a kulturális örökséggel kapcsolatos tartalmak hozzáférhetőségét és bevonását, például többnyelvű, érzelmileg gazdag narrációk hozzáadásával, hogy a kiállítások vonzóbbá váljanak a különböző közönségek számára. Ezenkívül az eszköz forrást biztosít a látássérült látogatók számára azáltal, hogy részletes audioleírások formájában hozzáférhető tartalmat kínál. A történelmi dokumentumokat magával ragadó hangos történetmesélési élményekké alakíthatja át, lehetővé téve a felhasználók számára a magával ragadó történelmi élményt.
Videoszinkronizálás vagy image-to-speech narráció
A múzeumok és kulturális intézmények gyakran videókra támaszkodnak a látogatók oktatásához és bevonásához. A többnyelvű változatok létrehozása vagy a néma képek narrálása azonban kihívást jelenthet. A SHIFT TTS rendszer zökkenőmentes funkcionalitást kínál a videoszinkronizáláshoz és a narrált videók generálásához a képekből.
A videoszinkronizálás egyik kulcsfontosságú jellemzője lehetővé teszi a felhasználók számára, hogy a videó eredeti hangját mesterséges intelligencia által generált beszédre cseréljék (még a történelmi alakok hangjának klónozása is), miközben gondosan megőrzik a tartalom érzelmi hangját. A rendszer kiemelkedik a néma képek vokalizálásában is, szöveges leírások révén az állóképeket narrált videókká alakítja, a vizuális tartalmakat hozzáférhetőbbé és vonzóbbá teszi a különböző közönségek számára. Lásd a példát.
A videoszinkronizálás és az image-to-speech narratív funkciók lehetővé teszik a múzeumok számára, hogy többnyelvű változatokat készítsenek videotartalmukról, kiszélesítve a nemzetközi közönség számára való hozzáférhetőséget. Ezek az eszközök felhasználhatók arra, hogy elbeszélést adjanak a műalkotásokhoz és a történelmi tárgyakhoz a digitális kiállításokon, gazdagabb, vonzóbb történetmesélést biztosítva, amely növeli a látogatói élményt. A mesterséges intelligencia által generált hangalámondások integrálásával a SHIFT TTS eszköz interaktívabbá és hozzáférhetőbbé teheti az online múzeumi élményeket, különösen azok számára, akik látássérültek vagy inkább az audioalapú tartalmat részesítik előnyben.
Hangklónozás a személyre szabott narrációhoz
A SHIFT TTS egyik leginnovatívabb tulajdonsága a hangklónozási képesség, amely lehetővé teszi a felhasználók számára, hogy elbeszélés céljából lemásolják a beszélő hangját. Ez a funkció különösen hasznos a történelmi alakok vagy narrátorok hangjának megőrzéséhez, egyedülálló és hiteles módot kínálva a történelem életre keltésére.
A felhasználók feltölthetnek egy rövid hangmintát, és a SHIFT TTS olyan beszédet generál, amely utánozza a személy hangját. Ez biztosítja, hogy a klónozott hang megőrizze a hiteles érzelmeket és beszédjellemzőket, reálisabb és vonzóbb élményt teremtve. A hangklónozási funkció lehetőséget nyújt a személyre szabott történetmesélésre, különösen a történelmi kiállítások esetében, ahol olyan alakokat, mint Andy Warhol vagy Salvador Dalí, saját történetük elbeszélésére klónozhatnak, mélyebb kapcsolatot kínálva a tartalommal.
A hangklónozás lehetővé teszi az elveszett vagy hiányos történelmi felvételek rekreációját, életre keltve a régmúlt hangokat a közönség számára. A múzeumi kurátorok, a tartalomkészítők és mások is élvezhetik ezt a funkciót azáltal, hogy saját hangjukat használják az elbeszélésekhez, biztosítva az audio útmutatók, kiállítások és más típusú tartalmak következetes és személyes érintését.
AI által generált hangképek a magával ragadó történetmeséléshez
A teljesen magával ragadó élmények létrehozása érdekében a SHIFT tesztelte az AudioGen integrálását, amely egy mesterséges intelligencia eszköz, amely valósághű hangképeket generál a szöveges leírásokból. Ez a funkció lehetővé teszi a környezeti vagy környezeti háttérhangok hozzáadását a kiállításokhoz, és testreszabott hangképekkel gazdagítja őket, amelyek megfelelnek a kiállításban leírt időszaknak vagy beállításnak. Az ősi piacokat, csatatereket vagy szent tereket autentikus, korszaknak megfelelő háttérhangokkal lehet életre kelteni, érzékszervi réteget adva a történetmeséléshez, amely elmélyíti a látogatók kapcsolatát a történelemmel. Az eszköz több nyelven működik, biztosítva a nemzetközi közönség számára való hozzáférhetőségét és fokozva a kultúrák közötti elkötelezettséget. Nézd meg akcióban az alábbi képpel!
Ez a funkció rendkívül hatékonynak bizonyulhat a virtuális valóság (VR) és a kiterjesztett valóság (AR) múzeumi túrákon is, ahol az immerzív hang jelentősen növelheti a jelenlétérzetet és a realizmust. A hangképek javíthatják a látássérült látogatók hozzáférését is, részletes hangos leírásokat kínálva a történelmi beállításokról és eseményekről.
Miért fontosak ezek az eszközök a kulturális örökséggel foglalkozó szakemberek számára?
A múzeumoktól és a kulturális intézményektől egyre inkább elvárják, hogy globális, többnyelvű és sokszínű közönséget vonjanak be. Az immerzív tartalmak létrehozása azonban időt, erőforrásokat és szakértelmet igényel, ami sok intézmény számára hiányzik.
A SHIFT audioeszköztár támogatja az akadálymentességet azáltal, hogy magával ragadó audioleírásokat biztosít a látássérült látogatók számára, és többnyelvű narrációt biztosít a közönség széles köre számára, biztosítva, hogy mindenki részt vehessen a tartalomban. Emellett fokozza az elkötelezettséget azáltal, hogy mesterséges intelligencia által vezérelt affektív beszédet és hangképeket használ, hogy elmerítse a közönséget a történelemben és a kultúrában, magával ragadó élményt teremtve.
Tudjon meg többet
A SHIFT Audio Toolkit összes eszköze egy helyen lesz elérhető a jelenleg fejlesztés alatt álló SHIFT platformon. Ez a platform könnyű hozzáférést biztosít az összes SHIFT eszközhöz, beleértve a Text-to-Speech rendszert, a videó szinkronizálást, a hangkép generálást és így tovább.
Ha naprakész szeretne lenni a legújabb fejleményekről, új funkciókról és a SHIFT platform hivatalos elindításáról, kérjük, látogasson el a SHIFT weboldalára, és iratkozzon fel a SHIFT hírlevélre, hogy időben megkapja a frissítéseket, tippeket és bejelentéseket közvetlenül a postafiókjába.
Ezt a bejegyzést írta Dionyssos Kounadis-Bastian, vezető AI kutató, audEERING GmbH és Maria Kagkelidou, kommunikációs menedzser, The Heritage Management Organization.
