Marco Rendina: Lad os starte fra begyndelsen. Kan du give os en definition af undertekster?
Mauro Cettolo: Det er helt sikkert. Undertekster er korte stykker tekst, der normalt vises nederst på en skærm. Mange, hvis ikke os alle, har set undertekster mindst én gang i vores liv, for eksempel når vi ser en film på et sprog, vi ikke taler. De udvider adgangen til audiovisuelt indhold til personer, der enten ikke kender det sprog, det tales på, eller af forskellige årsager ikke kan lytte til lyden.
MR: Så undertekster er oversættelser af det, der bliver sagt?
MC: Faktisk er der forskellige typer af undertekster. Ud over undertekster, der præsenterer brugerne med faktiske oversættelser af, hvad der bliver sagt, er der undertekstning på samme sprog som talen samt en rigere form for undertekstning, som omfatter beskrivelsen af lyde, hvilket gør indholdet mere tilgængeligt.
MR: Hvilken type undertekstning arbejder AI4Culture-projektet på?
Vi fokuserer på undertekstning på tværs af sprog og følger vores drøm om at gøre videoindholdet tilgængeligt via Europeana.eu på tværs af sprog for et stadig mere mangfoldigt publikum. Dette er en aktiv og udfordrende forskningslinje, der i de senere år har set fremkomsten af forskellige automatiske tilgange. Disse omfatter de såkaldte "kaskadetilgange", hvor opgaven løses ved hjælp af en pipeline af separate AI-komponenter til audiosegmentering, taletransskription, tekstoversættelse og temporisering. Det omfatter også nye løsninger, hvor opgaven udføres af en enkelt neural model designet til at udføre alle trin i processen.
MR: Hvilke udfordringer udgør udviklingen af automatiske tilgange til undertekstning?
MC: Tværsproglig undertekstning er ikke blot en oversættelse. Det er en mangefacetteret opgave, der kompliceres af behovet for at afbalancere mange aspekter på samme tid.
Vi starter med lydindgang: Dette aspekt alene giver isoleret set udfordringer på et forskningsområde, der er meget aktivt i dag, kendt som taleoversættelse. Overvej for eksempel det faktum, at ord i skriftlig tekst er afgrænset af mellemrum, mens lydtale når os som en kontinuerlig strøm, hvor ord ofte bliver udfordrende at skelne fra hinanden.
Hvis vi tilføjer det faktum, at talte ord når os forvrænget af bestemte accenter, udtale, tøven, med interferens af musik og baggrundsstøj eller med forvirringen forårsaget af overlapningen af flere højttalere, kan vi forestille os de vanskeligheder, som en maskine, en softwaremodel, står over for i en tilsyneladende simpel opgave som at oversætte tale.
MR: Nu forstår vi, hvorfor du definerede undertekstning som en mangefacetteret opgave! Hvad gør det ellers svært?
MC: Nå - den slags oversættelse, der kræves af undertekstning, er et typisk eksempel på det, vi kalder begrænset oversættelse. En god undertekst skal opfylde specifikke krav, den skal være minimalt invasiv. For at være brugervenlig skal undertekster minimere den kognitive belastning, der kræves for at brugeren kan læse teksten, mens han ser indholdet. På denne måde kan en person nyde videoindholdet uden distraktioner og frem for alt uden overdreven indsats på grund af læsning.
MR: Hvilke begrænsninger skal en undertekst opfylde for at undgå at være invasiv?
MC: Begrænsninger er tidsmæssige, rumlige og syntaktiske. Fra et tidsmæssigt synspunkt skal undertekster være perfekt afstemt med videostrømmen for at undgå situationer, hvor nogen taler, men vi kan ikke læse, hvad de siger. Fra et rumligt synspunkt skal undertekster være kortfattede nok til ikke at kræve for meget tid til at læse og reducere de øjenbevægelser (kendt som saccades), der er nødvendige for at læse. Endelig er der syntaktiske begrænsninger; opdelingen af en undertitel i linjer bør ikke adskille sætningernes bestanddele. Der er ikke tale om generelle principper: Der er strenge regler, om end lidt forskellige på tværs af indholdsudbydere.
MR: Er det muligt for maskiner at udføre disse opgaver, som for blot få år siden blev anset for uopnåelige?
MC: Til dels, ja, også takket være projekter som AI4Culture. I dag har vi neurale netværksbaserede modeller, der er i stand til at generere acceptable undertekster til forskellige sprogpar. "Acceptabel" betyder, at de bestemt ikke er egnede til store Hollywood-produktioner, men kan bruges til den enorme mængde audiovisuelt materiale, der ellers ville forblive utilgængeligt for evigt på grund af sprogbarrierer og mangel på ressourcer til oversættelse. Nogle gange laver vores modeller stadig fejl, selv sjove, men vi er på rette spor: Vi træner modeller på specifikke sprog, og resultaterne er tilstrækkelige til at formidle betydningen af det, der blev sagt, og om muligt er egnede til manuelle revisioner - langt bedre end at starte fra bunden!
MR: Det lyder godt - hvad er de næste udfordringer, vi kommer til at stå over for?
MC: Jeg nævner tre.
Det første vedrører den automatiske evaluering af systemerne. I øjeblikket er vores evalueringer opdelt i en lang række parametre for at vurdere modeller i forhold til hver af de begrænsninger, der er på spil. At kombinere disse domme i en enkelt score er fortsat et komplekst problem, såvel som en af mine vigtigste forskningsinteresser i den nærmeste fremtid.
Den anden er sprogdækningen: I dag er vi i stand til at håndtere et meget begrænset sæt sprogpar, for det meste engelsk-centreret. Men der er over 7.000 sprog i verden, og for de fleste af dem er der ingen data eller computerværktøjer og modeller.
Den tredje udfordring er miljøet. Dagens AI er i stand til at gøre store ting, men energiomkostningerne ved de såkaldte grundmodeller, som afhænger af enorme beregningsmæssige ressourcer, er ekstremt høje. Stadig meget at gøre, men projekter som AI4Culture giver os mulighed for at dele vores arbejde med verden og kollektivt fremskridt på området.
MR: Tak for din indsigt i dette udfordrende og spændende forskningsområde. Fra nu af vil vi nyde undertekster med et helt andet og meget mere bevidst perspektiv!
Læs mere
Senere på sommeren vil den automatiske undertekstningspipeline, der præsenteres ovenfor, blive integreret i et open source og brugervenligt automatisk undertekstningsværktøj. Det vil gøre det muligt for kulturarvsinstitutioner automatisk at oprette undertekster på otte sprog til deres audiovisuelle materiale, hvilket også gør det muligt for dem at redigere og validere manuelt.
I september 2024 vil AI4Culture også lancere en platform, hvor åbne værktøjer såsom det automatiske undertekstningsværktøj vil blive gjort tilgængelige online sammen med tilhørende dokumentation og undervisningsmateriale.
Hold øje med projektsiden på Europeana Pro for flere detaljer og hold øje med projektet LinkedIn og X konto! Indtil videre kan alle, der er interesserede i at anvende den automatiske undertekstningspipeline, udforske den open source-kode, der er tilgængelig på GitHub.
