Marco Rendina: Beginnen wir mit dem Auspacken von OCR. Was ist das und warum ist es für die Erhaltung des kulturellen Erbes relevant?
Tom Vanallemeersch: OCR (Optical Character Recognition) oder HTR (Handwritten Text Recognition) ist eine Technologie, die eine digitale Transkription von gedruckten oder handschriftlichen Texten erzeugt. Transkriptionen von gescannten Dokumenten sind vor allem wichtig für die Durchsuchbarkeit, da sie es ermöglichen, Schlüsselwörter zu verwenden, um nach einem bestimmten Dokument zu suchen oder nach einem bestimmten Teil innerhalb eines Dokuments zu suchen. Um diese Durchsuchbarkeit weiter zu verbessern, können Transkriptionen mit maschineller Übersetzung übersetzt werden, sodass Benutzer beispielsweise nur mit einem englischen Suchbegriff nach Wörtern in Dokumenten in verschiedenen Sprachen suchen können.
MR: Wie effektiv ist die aktuelle State-of-the-Art OCR-Technologie?
Fernsehen: In den letzten Jahren wurden bemerkenswerte Fortschritte in der OCR-Technologie erzielt, und einige OCR-Modelle schneiden vor allem bei modernen gedruckten Texten beeindruckend gut ab. Es gibt auch eine breite Palette von zunehmend spezialisierten Modellen für unterschiedliche Bedürfnisse, wie Texte des 18. Jahrhunderts oder handschriftliche Briefe aus dem Zweiten Weltkrieg.
Trotz dieser Fortschritte bestehen jedoch nach wie vor Herausforderungen aufgrund von Faktoren wie unterschiedlichen Handschriftstilen und Textlayouts, den beteiligten Sprachen oder dem Vorhandensein von „Lärm“ (degradierte Zeichen oder Durchblutung in doppelseitigen Dokumenten, bei denen die Tinte der Rückseite auf der Vorderseite erscheint). Probleme wie die falsche Erkennung von Zeichen können sich dramatisch auf die Genauigkeit von OCR-Transkriptionen auswirken, ein Problem, das besonders deutlich wird, wenn diese Ausgaben für Übersetzungszwecke verwendet werden.
Basierend auf unserer Erfahrung bei CrossLang mit der Entwicklung von Systemen für die mehrsprachige Dokumentenverarbeitung und Übersetzungsautomatisierung haben wir diese Herausforderungen direkt angegangen, um sicherzustellen, dass die OCR-Ausgabe nicht nur genau, sondern auch übersetzungsbereit ist.
MR: Können Sie uns erklären, wie Sie OCR-Transkriptionen für die Übersetzung vorbereiten?
Fernsehen: Sicherlich. Die Transkriptionen übersetzungsfertig zu machen, ist ein mehrstufiger Prozess.
Erstens wird das Dokument oder Bild hochgeladen, und die OCR-Technologie wird angewendet, um ein digitales Transkript zu generieren. Dies beinhaltet die Analyse des Seitenlayouts und die Identifizierung von Zeichen in den Textbereichen. Da dieser Prozess automatisiert wird, kann die resultierende Ausgabe Fehler wie falsche Zeichenerkennung und fehlende Leerzeichen enthalten. Darüber hinaus fehlt der OCR-Ausgabe in der Regel eine Segmentierung, die Zeilen aus gedruckten oder handschriftlichen Zeichen darstellt, wie sie im Bild angezeigt werden, ohne Segmentierung in Sätze. Während dies in Ordnung sein kann, solange der Endbenutzer den Text in der Originalsprache lesen kann, wird die direkte Verwendung der OCR-Ausgabe, einschließlich ihrer Rechtschreibfehler und fehlender Segmentierung, sehr wahrscheinlich zu ungenauen Übersetzungen führen.
Wir verwenden verschiedene Techniken, um diese Ungenauigkeiten zu beheben. Ich werde zwei Hauptansätze erwähnen. Erstens werden Segmentierungs- und Dehyphenationstechniken verwendet, um Sätze innerhalb des Textes zu identifizieren und zu trennen und wortspaltende Bindestriche am Zeilenende zu entfernen. Zweitens, um die Genauigkeit der OCR-Ausgabe weiter zu verbessern, verwenden wir lexikonbasierte Tools und Large Language Models (LLMs), einschließlich Open-Source-Chatbots, um Fehler in Wörtern automatisch zu identifizieren und zu korrigieren, um den Text so nah wie möglich am Originalbild auszurichten.
Schließlich kann mit der korrigierten OCR-Ausgabe MT angewendet werden, um genauere Übersetzungen zu generieren. Dieser Schritt hängt von der Qualität des Eingabetextes ab, so dass die beiden vorherigen automatischen Korrekturschritte entscheidend sind, um nützliche MT-Ergebnisse zu erzielen.

MR: Wie beurteilen Sie, ob dieser Korrekturprozess erfolgreich war?
Fernsehen: Wir verwenden automatisierte Metriken wie Character Error Rate (CER) und Translation Edit Rate (TER), um die Genauigkeit und Qualität der korrigierten OCR-Ausgabe und ihrer Übersetzung zu bewerten. Diese Metriken ermöglichen es uns, die korrigierte OCR-Ausgabe mit der Grundwahrheit (der gewünschten Transkription) zu vergleichen und wertvolle Einblicke in die Wirksamkeit unserer Methoden zu geben. Wir haben in dieser Hinsicht erhebliche Verbesserungen festgestellt, da sowohl der CER als auch der TER nach der Korrektur der OCR-Ausgabe im Allgemeinen abnehmen.
Gelegentlich führen wir auch manuelle Inspektionen durch, um die Gesamtgenauigkeit eines Textes sicherzustellen, da selbst ein kleiner Fehler die Bedeutung des Satzes verändern könnte, was möglicherweise zu Missverständnissen oder Ungenauigkeiten führen kann. Es kann auch Fälle geben, in denen jemand (wie ein Historiker) bestimmte Elemente des Textes bewahren möchte, einschließlich möglicher Fehler (wie falsch geschriebene Wörter); In solchen Fällen könnte ein LLM „überkorrekt“ sein (ähnlich kann es Wörter, die in einer älteren Variante einer Sprache geschrieben wurden, durch ihre neueren Versionen ersetzen). Solche konservierungsorientierten Szenarien („diplomatische Transkription“) erfordern eine sorgfältige manuelle Prüfung.
MR: Welchen Rat würden Sie Einrichtungen des Kulturerbes geben, die fortschrittliche OCR- und Übersetzungstechnologien in ihre Erhaltungsbemühungen integrieren möchten?
Fernsehen: Die wichtigste Beratung, die ich anbieten kann, ist, die Entwicklungen des AI4Culture-Projekts genau zu verfolgen. Im Oktober 2024 werden wir einen Online-Workshop für Studierende und Experten des Kulturerbes anbieten, in dem wir die Anwendung von OCR und MT auf gescannte Dokumente praxisnah erläutern und einige weitere technische Details zu Aspekten wie der automatisierten Korrektur von OCR-Ausgaben bereitstellen. Bleiben Sie also auf den Social-Media-Konten von AI4Culture auf dem Laufenden.
Erfahren Sie mehr
Im September 2024 wird im Rahmen des Projekts AI4Culture eine Plattform eingerichtet, auf der offene Instrumente wie die oben vorgestellten OCR-Tools zusammen mit zugehöriger Dokumentation und Schulungsmaterial online zur Verfügung gestellt werden. Behalten Sie die Projektseite auf Europeana Pro für weitere Details im Auge und bleiben Sie auf dem Laufenden über das Projekt LinkedIn und X-Konto!
