Marco Rendina: Zacznijmy od początku. Czy możesz podać nam definicję napisów?
Mauro Cettolo: Pewnie, że tak. Napisy to krótkie fragmenty tekstu, które zwykle pojawiają się na dole ekranu. Wielu z nas, jeśli nie wszyscy, widziało napisy przynajmniej raz w życiu, na przykład podczas oglądania filmu w języku, którym nie mówimy. Rozszerzają one dostępność treści audiowizualnych na osoby, które albo nie znają języka, w którym są mówione, albo z różnych powodów nie mogą słuchać dźwięku.
MR: Ach, oczywiście, więc napisy są tłumaczeniami tego, co się mówi?
MC: W rzeczywistości istnieją różne rodzaje napisów. Oprócz napisów przedstawiających użytkownikom rzeczywiste tłumaczenia tego, co się mówi, istnieje napisy w tym samym języku co mowa, a także bogatsza forma napisów, która obejmuje opis dźwięków, dzięki czemu treść jest bardziej dostępna.
MR: Nad jakim rodzajem napisów pracuje projekt AI4Culture?
Skupiamy się na wielojęzycznym napisach, podążając za naszym marzeniem, aby treści wideo były dostępne za pośrednictwem Europeana.eu w różnych językach dla coraz bardziej zróżnicowanej publiczności. Jest to aktywna i wymagająca linia badań, w której w ostatnich latach pojawiły się różne automatyczne podejścia. Obejmują one tzw. podejścia kaskadowe, w ramach których zadanie jest realizowane za pomocą szeregu oddzielnych komponentów sztucznej inteligencji do segmentacji dźwięku, transkrypcji mowy, tłumaczenia tekstu i temporyzacji. Obejmuje również nowatorskie rozwiązania, w których zadanie jest wykonywane przez pojedynczy model neuronowy zaprojektowany do wykonywania wszystkich etapów procesu.
MR: Jakie wyzwania stawia przed nami rozwój automatycznych podejść do tworzenia napisów?
MC: Wielojęzyczne napisy nie są zwykłym tłumaczeniem. Jest to zadanie wielopłaszczyznowe, komplikowane przez konieczność równoczesnego zrównoważenia wielu aspektów.
Zaczynamy od wejścia audio: sam ten aspekt, rozpatrywany w odosobnieniu, stanowi wyzwanie w dziedzinie badań, która jest dziś bardzo aktywna, znanej jako tłumaczenie mowy. Rozważmy na przykład fakt, że słowa w tekście pisanym są ograniczone spacjami, podczas gdy w mowie audio dociera do nas jako ciągły strumień, w którym często słowa stają się trudne do odróżnienia od siebie.
Jeśli dodamy do tego fakt, że słowa mówione docierają do nas zniekształcone przez poszczególne akcenty, wymowy, wahania, z ingerencją muzyki i szumów tła, lub z zamieszaniem spowodowanym nakładaniem się wielu głośników, możemy sobie wyobrazić trudności, z jakimi boryka się maszyna, model oprogramowania, w pozornie prostym zadaniu, takim jak tłumaczenie mowy.
MR: Teraz rozumiemy, dlaczego zdefiniowałeś napisy jako wieloaspektowe zadanie! Co jeszcze utrudnia?
MC: Cóż - rodzaj tłumaczenia wymagany przez napisy jest typowym przykładem tego, co nazywamy tłumaczeniem ograniczonym. Dobry napis musi spełniać określone wymagania, musi być minimalnie inwazyjny. Aby napisy były przyjazne dla użytkownika, muszą minimalizować obciążenie poznawcze wymagane do czytania tekstu podczas oglądania treści. W ten sposób osoba może cieszyć się treścią wideo bez rozpraszania uwagi, a przede wszystkim bez nadmiernego wysiłku związanego z czytaniem.
MR: Jakie ograniczenia musi spełniać napis, aby uniknąć inwazyjności?
MC: Ograniczenia są czasowe, przestrzenne i składniowe. Z czasowego punktu widzenia napisy muszą być idealnie dopasowane do strumienia wideo, aby uniknąć sytuacji, w których ktoś mówi, ale nie możemy przeczytać tego, co mówi. Z przestrzennego punktu widzenia napisy muszą być na tyle zwięzłe, aby nie wymagały zbyt wiele czasu na czytanie i ograniczały ruchy oczu (znane jako sakkady) niezbędne do czytania. Wreszcie, istnieją ograniczenia składniowe; podział napisów na wiersze nie powinien oddzielać składników wyrażeń. Nie są to zasady ogólne: istnieją rygorystyczne przepisy, choć różnią się one nieco w zależności od dostawcy treści.
MR: Czy maszyny mogą wykonywać te zadania, które jeszcze kilka lat temu uważano za nieosiągalne?
MC: Częściowo tak, również dzięki projektom takim jak AI4Culture. Obecnie mamy modele oparte na sieci neuronowej zdolne do generowania akceptowalnych napisów dla różnych par językowych. „Dopuszczalne” oznacza, że z pewnością nie nadają się do dużych produkcji hollywoodzkich, ale nadają się do wykorzystania w ogromnej ilości materiałów audiowizualnych, które w przeciwnym razie pozostałyby na zawsze niedostępne ze względu na bariery językowe i brak zasobów do tłumaczenia. Czasami nasze modele wciąż popełniają błędy, nawet te zabawne, ale jesteśmy na dobrej drodze: szkolimy modele na konkretnych językach, a wyniki są wystarczające, aby przekazać znaczenie tego, co zostało powiedziane i, jeśli to możliwe, nadają się do ręcznych poprawek - znacznie lepiej niż zaczynanie od zera!
MR: Brzmi świetnie - jakie są kolejne wyzwania, przed którymi wtedy staniemy?
MC: Wspomnę o trzech.
Pierwsza dotyczy automatycznej oceny systemów. Obecnie nasze oceny są podzielone na wiele wskaźników, aby ocenić modele pod kątem każdego z występujących ograniczeń. Połączenie tych osądów w jeden wynik pozostaje złożonym problemem, a także jednym z moich głównych zainteresowań badawczych w najbliższej przyszłości.
Drugim jest zasięg językowy: Dziś jesteśmy w stanie poradzić sobie z bardzo ograniczonym zestawem par językowych, głównie anglo-centrycznych. Jednak na świecie istnieje ponad 7000 języków, a dla większości z nich nie ma danych, ani narzędzi komputerowych i modeli.
Trzecim wyzwaniem jest środowisko. Dzisiejsza sztuczna inteligencja jest zdolna do wielkich rzeczy, ale koszty energii tak zwanych modeli fundamentowych, które zależą od ogromnych zasobów obliczeniowych, są niezwykle wysokie. Jest jeszcze wiele do zrobienia, ale projekty takie jak AI4Culture dają nam szansę na dzielenie się naszą pracą ze światem i wspólne postępy w tej dziedzinie.
MR: Dziękujemy za wgląd w tę trudną i ekscytującą dziedzinę badań. Od teraz będziemy cieszyć się napisami z zupełnie innej i znacznie bardziej świadomej perspektywy!
Dowiedz się więcej
Jeszcze tego lata przedstawiony powyżej automatyczny potok napisów zostanie zintegrowany z otwartym i przyjaznym dla użytkownika narzędziem do automatycznego tworzenia napisów. Umożliwi to instytucjom dziedzictwa kulturowego automatyczne tworzenie napisów do materiałów audiowizualnych w ośmiu językach, umożliwiając również ich ręczną edycję i walidację.
We wrześniu 2024 r. AI4Culture uruchomi również platformę, na której otwarte narzędzia, takie jak narzędzie do automatycznego tworzenia napisów, zostaną udostępnione online wraz z powiązaną dokumentacją i materiałami szkoleniowymi.
Obserwuj stronę projektu na Europeana Pro, aby uzyskać więcej informacji i bądź na bieżąco z projektem LinkedIn i kontem X! Na razie wszystkie osoby zainteresowane wdrożeniem automatycznego potoku napisów mogą zapoznać się z kodem open source dostępnym na GitHubie.
