Enge Begegnungen mit KI: Interview zur automatischen Untertitelung

Veröffentlicht 13. Juni 2024 von

Marco Rendina (European Fashion Heritage Association)

Mauro Cettolo (Bruno Kessler Foundation)

Marco Rendina: Fangen wir von vorne an. Können Sie uns eine Definition von Untertiteln geben?

Mauro Cettolo: Sicher. Untertitel sind kurze Textstücke, die normalerweise am unteren Rand eines Bildschirms erscheinen. Viele, wenn nicht alle von uns, haben Untertitel mindestens einmal in unserem Leben gesehen, zum Beispiel, wenn wir einen Film in einer Sprache sehen, die wir nicht sprechen. Sie erweitern die Zugänglichkeit audiovisueller Inhalte auf Personen, die die Sprache, in der sie gesprochen werden, entweder nicht kennen oder aus verschiedenen Gründen nicht hören können.

MR: Ach, natürlich, Untertitel sind also Übersetzungen dessen, was gesagt wird?

MC: Tatsächlich gibt es verschiedene Arten der Untertitelung. Neben Untertiteln, die den Benutzern tatsächliche Übersetzungen des Gesagten präsentieren, gibt es eine Untertitelung in der gleichen Sprache wie die Sprache sowie eine reichhaltigere Form der Untertitelung, die die Beschreibung von Klängen beinhaltet und den Inhalt zugänglicher macht.

MR: An welcher Art von Untertitelung arbeitet das AI4Culture-Projekt?

Wir konzentrieren uns auf die mehrsprachige Untertitelung und folgen unserem Traum, die Videoinhalte über Europeana.eu einem immer vielfältigeren Publikum sprachübergreifend zugänglich zu machen. Dies ist eine aktive und herausfordernde Forschungslinie, die in den letzten Jahren verschiedene automatische Ansätze hervorgebracht hat. Dazu gehören die sogenannten „Kaskaden“-Ansätze, bei denen die Aufgabe durch eine Pipeline separater KI-Komponenten für Audiosegmentierung, Sprachtranskription, Textübersetzung und Temporisierung angegangen wird. Es enthält auch neuartige Lösungen, bei denen die Aufgabe von einem einzigen neuronalen Modell ausgeführt wird, das alle Schritte des Prozesses ausführt.

MR: Welche Herausforderungen stellt die Entwicklung automatischer Ansätze zur Untertitelung dar?

MC: Die mehrsprachige Untertitelung ist keine bloße Übersetzung. Es ist eine vielschichtige Aufgabe, die durch die Notwendigkeit, viele Aspekte gleichzeitig auszugleichen, erschwert wird.

Wir beginnen mit dem Audio-Eingang: Dieser Aspekt allein, isoliert betrachtet, stellt Herausforderungen in einem Forschungsbereich dar, der heute sehr aktiv ist, bekannt als Sprachübersetzung. Betrachten wir zum Beispiel die Tatsache, dass Wörter im geschriebenen Text durch Leerzeichen begrenzt sind, während uns die Audiosprache als kontinuierlicher Strom erreicht, in dem Wörter oft schwer voneinander zu unterscheiden sind.

Wenn wir die Tatsache hinzufügen, dass gesprochene Worte uns verzerrt durch bestimmte Akzente, Aussprache, Zögern, durch die Interferenz von Musik und Hintergrundgeräuschen oder durch die Verwirrung, die durch die Überlappung mehrerer Sprecher verursacht wird, erreichen, können wir uns die Schwierigkeiten vorstellen, denen eine Maschine, ein Softwaremodell, in einer scheinbar einfachen Aufgabe wie der Übersetzung von Sprache gegenübersteht.

MR: Jetzt verstehen wir, warum Sie Untertitelung als vielschichtige Aufgabe definiert haben! Was macht es noch schwieriger?

MC: Nun - die Art der Übersetzung, die für die Untertitelung erforderlich ist, ist ein typisches Beispiel für das, was wir als eingeschränkte Übersetzung bezeichnen. Ein guter Untertitel muss bestimmte Anforderungen erfüllen, er muss minimal invasiv sein. Um benutzerfreundlich zu sein, müssen Untertitel die kognitive Belastung minimieren, die der Benutzer benötigt, um den Text zu lesen, während er sich den Inhalt ansieht. Auf diese Weise kann eine Person die Videoinhalte ohne Ablenkungen und vor allem ohne übermäßigen Aufwand durch Lesen genießen.

MR: Welche Einschränkungen muss ein Untertitel erfüllen, um nicht invasiv zu sein?

MC: Einschränkungen sind zeitlich, räumlich und syntaktisch. Aus zeitlicher Sicht müssen Untertitel perfekt auf den Videostream abgestimmt sein, um Situationen zu vermeiden, in denen jemand spricht, aber wir nicht lesen können, was er sagt. Aus räumlicher Sicht müssen Untertitel prägnant genug sein, um nicht zu viel Zeit zum Lesen zu benötigen und die für das Lesen erforderlichen Augenbewegungen (bekannt als Sakkaden) zu reduzieren. Schließlich gibt es syntaktische Einschränkungen; Die Aufspaltung eines Untertitels in Zeilen sollte die Bestandteile von Phrasen nicht trennen. Dies sind keine allgemeinen Grundsätze: Es gibt strenge Regeln, wenn auch leicht unterschiedlich zwischen den Inhaltsanbietern.

MR: Können Maschinen diese Aufgaben erfüllen, die noch vor wenigen Jahren als unerreichbar galten?

MC: Zum Teil ja, auch dank Projekten wie AI4Culture. Heute haben wir neuronale netzwerkbasierte Modelle, die akzeptable Untertitel für verschiedene Sprachpaare generieren können. „Akzeptabel“ bedeutet, dass sie sicherlich nicht für große Hollywood-Produktionen geeignet sind, aber für diese enorme Menge an audiovisuellem Material verwendbar sind, das andernfalls aufgrund von Sprachbarrieren und fehlenden Übersetzungsressourcen für immer unzugänglich bleiben würde. Manchmal machen unsere Models immer noch Fehler, sogar lustige, aber wir sind auf dem richtigen Weg: Wir trainieren Modelle auf bestimmten Sprachen, und die Ergebnisse reichen aus, um die Bedeutung des Gesagten zu vermitteln und sind, wenn möglich, für manuelle Revisionen geeignet - viel besser als von vorne anzufangen!

MR: Klingt großartig - was sind die nächsten Herausforderungen, denen wir uns dann stellen werden?

MC: Ich erwähne drei.

Die erste betrifft die automatische Bewertung von Systemen. Im Moment sind unsere Bewertungen in eine Vielzahl von Metriken zersplittert, um Modelle gegen jede der vorliegenden Einschränkungen zu bewerten. Die Kombination dieser Urteile in einer einzigen Punktzahl bleibt ein komplexes Problem und eines meiner Hauptforschungsinteressen in der unmittelbaren Zukunft.

Die zweite ist die sprachliche Abdeckung: Heute sind wir in der Lage, mit einer sehr begrenzten Anzahl von Sprachpaaren umzugehen, die hauptsächlich auf Englisch ausgerichtet sind. Es gibt jedoch über 7.000 Sprachen auf der Welt und für die meisten von ihnen gibt es weder Daten noch Computerwerkzeuge und -modelle.

Die dritte Herausforderung ist die Umwelt. Die heutige KI ist in der Lage, Großes zu leisten, aber die Energiekosten der sogenannten Gründungsmodelle, die von enormen Rechenressourcen abhängen, sind extrem hoch. Es gibt noch viel zu tun, aber Projekte wie AI4Culture geben uns die Möglichkeit, unsere Arbeit mit der Welt zu teilen und gemeinsam auf diesem Gebiet voranzukommen.

MR: Vielen Dank für Ihre Einblicke in diesen herausfordernden und spannenden Forschungsbereich. Von nun an werden wir Untertitel mit einer völlig anderen und viel bewussteren Perspektive genießen!

Erfahren Sie mehr

Später in diesem Sommer wird die oben vorgestellte automatische Untertitelungspipeline in ein Open-Source- und benutzerfreundliches automatisches Untertitelungstool integriert. Sie wird es den Einrichtungen des Kulturerbes ermöglichen, automatisch Untertitel in acht Sprachen für ihre audiovisuellen Materialien zu erstellen, die auch ihre manuelle Bearbeitung und Validierung ermöglichen.

Im September 2024 wird AI4Culture auch eine Plattform einrichten, auf der offene Instrumente wie das automatische Untertitelungstool zusammen mit zugehöriger Dokumentation und Schulungsmaterial online zur Verfügung gestellt werden.

Behalten Sie die Projektseite auf Europeana Pro für weitere Details im Auge und bleiben Sie auf dem Laufenden über das Projekt LinkedIn und X-Konto! Vorerst können alle Personen, die an der Bereitstellung der automatischen Untertitelungspipeline interessiert sind, den auf GitHub verfügbaren Open-Source-Code erkunden.

Enge Begegnungen mit KI: Interview zur automatischen Untertitelung

Teilen

Erfahren Sie mehr

Entdecken Sie verwandte Inhalte