Close Encounters met AI: een interview over automatische ondertiteling

Gepubliceerd 13 juni 2024 door

Marco Rendina (European Fashion Heritage Association)

Mauro Cettolo (Bruno Kessler Foundation)

Marco Rendina: Laten we bij het begin beginnen. Kun je een definitie geven van ondertiteling?

Mauro Cettolo: Natuurlijk. Ondertitels zijn korte stukjes tekst die meestal onderaan een scherm verschijnen. Velen, zo niet wij allemaal, hebben minstens één keer in ons leven ondertitels gezien, bijvoorbeeld bij het kijken naar een film in een taal die we niet spreken. Ze breiden de toegankelijkheid van audiovisuele inhoud uit tot mensen die de taal waarin deze wordt gesproken niet kennen of om verschillende redenen niet naar de audio kunnen luisteren.

MR: Ah, natuurlijk, dus ondertitels zijn vertalingen van wat er wordt gezegd?

MC: Eigenlijk zijn er verschillende soorten ondertiteling. Naast ondertitels die gebruikers feitelijke vertalingen bieden van wat er wordt gezegd, is er ondertiteling in dezelfde taal als de spraak, evenals een rijkere vorm van ondertiteling, waaronder de beschrijving van geluiden, waardoor inhoud toegankelijker wordt.

MR: Aan wat voor soort ondertiteling werkt het AI4Culture-project?

We richten ons op taaloverschrijdende ondertiteling, in navolging van onze droom om de video-inhoud via Europeana.eu beschikbaar te maken in verschillende talen voor een steeds diverser publiek. Dit is een actieve en uitdagende onderzoekslijn die de afgelopen jaren de opkomst van verschillende automatische benaderingen heeft gezien. Deze omvatten de zogenaamde “cascadebenaderingen”, waarbij de taak wordt aangepakt door een pijplijn van afzonderlijke AI-componenten voor audiosegmentatie, spraaktranscriptie, tekstvertaling en temporisering. Het omvat ook nieuwe oplossingen, waarbij de taak wordt uitgevoerd door een enkel neuraal model dat is ontworpen om alle stappen van het proces uit te voeren.

MR: Welke uitdagingen stelt de ontwikkeling van automatische benaderingen voor ondertiteling?

MC: Cross-linguale ondertiteling is niet zomaar een vertaling. Het is een veelzijdige taak, ingewikkelder gemaakt door de noodzaak om veel aspecten tegelijkertijd in evenwicht te brengen.

We beginnen met audio-ingang: alleen al dit aspect, op zichzelf beschouwd, brengt uitdagingen met zich mee op een onderzoeksgebied dat vandaag de dag zeer actief is, bekend als spraakvertaling. Denk bijvoorbeeld aan het feit dat woorden in geschreven tekst worden afgebakend door spaties, terwijl in audiospraak ons bereikt als een continue stroom, waarin woorden vaak een uitdaging worden om van elkaar te onderscheiden.

Als we hieraan toevoegen dat gesproken woorden ons bereiken vervormd door bepaalde accenten, uitspraak, aarzelingen, met de interferentie van muziek en achtergrondgeluiden, of met de verwarring veroorzaakt door de overlap van meerdere luidsprekers, kunnen we ons de moeilijkheden voorstellen waarmee een machine, een softwaremodel, wordt geconfronteerd in een schijnbaar eenvoudige taak zoals het vertalen van spraak.

MR: Nu begrijpen we waarom je ondertiteling definieerde als een veelzijdige taak! Wat maakt het nog moeilijker?

MC: Nou - het soort vertaling dat nodig is voor ondertiteling is een typisch voorbeeld van wat we beperkte vertaling noemen. Een goede ondertiteling moet aan specifieke eisen voldoen, het moet minimaal invasief zijn. Om gebruiksvriendelijk te zijn, moeten ondertitels de cognitieve belasting minimaliseren die de gebruiker nodig heeft om de tekst te lezen tijdens het bekijken van de inhoud. Op deze manier kan een persoon genieten van de video-inhoud zonder afleiding en vooral zonder overmatige inspanning als gevolg van het lezen.

MR: Aan welke beperkingen moet een ondertitel voldoen om invasief te zijn?

MC: Beperkingen zijn temporeel, ruimtelijk en syntactisch. Vanuit een temporeel oogpunt moeten ondertitels perfect worden afgestemd op de videostream, om situaties te voorkomen waarin iemand spreekt, maar we niet kunnen lezen wat ze zeggen. Vanuit ruimtelijk oogpunt moeten ondertitels beknopt genoeg zijn om niet te veel tijd nodig te hebben om te lezen en de oogbewegingen (bekend als saccades) te verminderen die nodig zijn om te lezen. Ten slotte zijn er syntactische beperkingen; de opsplitsing van een ondertitel in regels mag de bestanddelen van zinnen niet scheiden. Dit zijn geen algemene beginselen: er zijn strikte regels, zij het enigszins verschillend tussen aanbieders van inhoud.

MR: Is het mogelijk voor machines om deze taken uit te voeren die slechts een paar jaar geleden als onhaalbaar werden beschouwd?

MC: Mede dankzij projecten als AI4Culture. Tegenwoordig hebben we modellen op basis van neurale netwerken die acceptabele ondertitels kunnen genereren voor verschillende taalparen. “Aanvaardbaar” betekent dat ze zeker niet geschikt zijn voor grote Hollywoodproducties, maar bruikbaar zijn voor die enorme hoeveelheid audiovisueel materiaal die anders voor altijd ontoegankelijk zou blijven vanwege taalbarrières en een gebrek aan middelen voor vertaling. Soms maken onze modellen nog steeds fouten, zelfs grappige, maar we zijn op de goede weg: we trainen modellen op specifieke talen en de resultaten zijn voldoende om de betekenis van wat er is gezegd over te brengen en zijn, indien mogelijk, geschikt voor handmatige revisies - veel beter dan helemaal opnieuw beginnen!

MR: Klinkt geweldig - wat zijn de volgende uitdagingen waar we dan voor staan?

MC: Ik zal er drie noemen.

Het eerste betreft de automatische evaluatie van systemen. Op dit moment zijn onze evaluaties gefragmenteerd in een veelheid aan statistieken om modellen te beoordelen aan de hand van elk van de beperkingen die spelen. Het combineren van deze oordelen in een enkele score blijft een complex probleem, evenals een van mijn belangrijkste onderzoeksinteresses in de nabije toekomst.

De tweede is die van de taaldekking: Vandaag zijn we in staat om te gaan met een zeer beperkte set van taalparen, meestal Engels-centric. Er zijn echter meer dan 7.000 talen in de wereld en voor de meeste van hen zijn er geen gegevens, noch computerhulpmiddelen en -modellen.

De derde uitdaging is het milieu. De huidige AI is in staat om grote dingen te doen, maar de energiekosten van de zogenaamde basismodellen, die afhankelijk zijn van enorme computationele middelen, zijn extreem hoog. Er is nog veel te doen, maar projecten zoals AI4Culture geven ons de kans om ons werk met de wereld te delen en collectief vooruitgang te boeken in het veld.

MR: Dank u voor uw inzichten in dit uitdagende en opwindende onderzoeksgebied. Vanaf nu zullen we genieten van ondertitels met een heel ander en veel bewuster perspectief!

Meer informatie

Later deze zomer zal de hierboven gepresenteerde pijplijn voor automatische ondertiteling worden geïntegreerd in een open-source en gebruiksvriendelijke tool voor automatische ondertiteling. Het zal instellingen voor cultureel erfgoed in staat stellen automatisch ondertitels in acht talen te creëren voor hun audiovisueel materiaal, waardoor ze ook handmatig kunnen bewerken en valideren.

In september 2024 zal AI4Culture ook een platform lanceren waar open instrumenten, zoals de tool voor automatische ondertiteling, online beschikbaar zullen worden gesteld, samen met bijbehorende documentatie en opleidingsmateriaal.

Houd de projectpagina op Europeana Pro in de gaten voor meer details en blijf op de hoogte van het project LinkedIn en X account! Voorlopig kunnen alle mensen die geïnteresseerd zijn in het implementeren van de automatische ondertitelingspijplijn de open-source code verkennen die beschikbaar is op GitHub.

Close Encounters met AI: een interview over automatische ondertiteling

Delen

Meer informatie

Ontdek gerelateerde content