Handschrifterkennungstechnologie verbessert die Transcribathon-Plattform

Veröffentlicht 19. Dezember 2022

Die 2016 gestartete Transcribathon-Plattform wurde durch zwei Generic Services-Projekte weiterentwickelt: Enrich Europeana (2018-2020) und Enrich Europeana Plus (2021-2023). Die Plattform ermöglicht es Freiwilligen, handschriftliche historische Texte in verschiedenen Sprachen und aus verschiedenen historischen Epochen zu transkribieren und dabei nichts weiter als ihren Computer zu verwenden. Seit Beginn der Projekte wurden mehr als 372 000 Dokumente von Freiwilligen transkribiert und in digitale Textdateien umgewandelt, was dazu beigetragen hat, die umfangreichen Sammlungen von Gegenständen des digitalen Kulturerbes von Europeana zu erweitern und zu bereichern.

Im Jahr 2021 begann das Projekt Enrich Europeana Plus, die Transcribathon-Plattform mit fortschrittlicher Handschrifterkennungstechnologie zu aktualisieren, die mithilfe künstlicher Intelligenz automatische Transkriptionen bereitstellt, die dann von Freiwilligen überprüft werden können. Einer der größten Anbieter dieser Technologie ist READ-COOP, eine Europäische Genossenschaft, die die beliebte Transkribus-Software verwaltet. Enrich Europeana Plus hat mehrere Monate mit READ-COOP gearbeitet und ihre Technologie in die Transcribathon-Plattform integriert.

Verknüpfung von Transcribathon mit der Metagrapho-API

Die Transkribus-Software wurde im Rahmen eines EU-geförderten Projekts unter der Leitung der Universität Innsbruck entwickelt und ermöglicht die automatische Massentranskribierung historischer handschriftlicher Dokumente. Die Technologie nutzt KI, um zu „lernen“, wie man bestimmte Arten von Handschriften liest, und implementiert dieses Wissen dann, um automatische Transkriptionen von Texten zu erstellen. Dies beschleunigt den Transkriptionsprozess erheblich: Der Transkribierer muss nicht mehr stundenlang eine Transkription von Grund auf neu schreiben, da er stattdessen die automatische Transkription korrigieren kann.

Die Handschrifterkennungstechnologie wie Transkribus eignet sich besonders für Citizen-Science-Projekte. Je einfacher es ist, diese Dokumente zu transkribieren, desto mehr Dokumente können die Freiwilligen in einem bestimmten Zeitrahmen verarbeiten und desto schneller kann die Europeana-Website angereichert werden. Das Transcribathon-Team war daher daran interessiert, diese Technologie in die Plattform zu implementieren.

Zu diesem Zweck beschlossen sie, die Metagrapho-API von READ-COOP zu verwenden, um Transcribathon den Zugriff auf die Transkribus-Technologie zu ermöglichen. Eine API ist eine Software, die als Messenger zwischen zwei verschiedenen Plattformen fungiert. Jemand fordert Informationen auf einer Plattform an, und die Plattform sendet diese Anfrage an die API einer anderen Plattform. Sobald diese zweite Plattform eine Antwort auf die Anfrage hat, bringt die API sie zurück zur ersten Plattform und die Person erhält die Informationen, die sie benötigt.

Die Transcribathon-Plattform nutzt die Metagrapho-API genau auf diese Weise. Wenn ein Freiwilliger eine automatische Transkription eines Textes erhalten möchte, fordert er dies auf der Transcribathon-Plattform an. Transcribathon sendet diese Anfrage dann an die Metagrapho-API, die die Handschrifterkennungstechnologie verwendet, um das Bild zu verarbeiten und eine automatische Transkription zu generieren. Schließlich kann die Transcribathon-Plattform nach Abschluss der Verarbeitung auf die Transkription zugreifen und sie dem Freiwilligen zeigen, wiederum über die Metagrapho-API.

Die Metagrapho-API liefert nicht nur die Transkription, sondern auch die Koordinaten für jede Zeile oder sogar jedes Wort im Bild - etwas, das in der alten Version von Transcribathon nicht möglich war. Diese Funktion ermöglicht es, die Transkriptionen dann für weitere Anwendungen zu verwenden, wie z.B. das Hervorheben passender Keywords im Text während einer Volltextsuche.

Ein verbesserter Transkriptionseditor

Die Aktualisierung der Technologie hinter Transcribathon bedeutete, dass der Transkriptionseditor - der Teil, den ein Freiwilliger zur Eingabe seiner Transkriptionen verwendet - nicht mehr in der Lage war, mit dem reichhaltigeren Datenformat fertig zu werden, das er von der Metagrapho-API erhielt. Daher hat READ-COOP einen benutzerdefinierten Transkriptionseditor für Transcribathon erstellt. Auf diese Weise können Personen auf eine Zeile der Transkription klicken und die entsprechende Zeile im Bild des Textes sehen.

Um den Prozess zu beschleunigen, nahm READ-COOP den vorhandenen Editor in der Transkribus-Software, modifizierte ihn an die Anforderungen von Transcribathon und verwandelte ihn in ein Widget. Das Widget wurde dann einfach in die Transcribathon-Plattform eingefügt, so dass Benutzer auf die von der Metagrapho-API generierten Transkriptionen zugreifen und diese bearbeiten können. Der Einsatz des bestehenden Transkribus-Editors und dessen einfache Modifikation sparte zudem wertvolle Entwicklungszeit und -kosten.

Die Kraft der Zusammenarbeit

Diese technologischen Updates bringen Transcribathon auf die nächste Stufe. Anstatt zeitaufwändige Transkriptionen von Grund auf neu zu erstellen, können Freiwillige jetzt einfach automatisch generierte Transkriptionen im neuen Transkriptionseditor korrigieren und so viel mehr Dokumente während eines Durchlaufs verarbeiten.

READ-COOP bildet derzeit die handschriftlichen Texterkennungs-KI-Modelle auf der Grundlage von bereits transkribiertem oder demnächst transkribiertem Material in Transcribathon aus. Je besser das KI-Modell an das fokussierte Material angepasst ist, desto genauer werden die automatischen Transkriptionen sein.

Zum Beispiel wird ein bevorstehender Transcribathon-Lauf Scans von Rationierungskarten aus dem Staatsarchiv in Zagreb enthalten, die während des Zweiten Weltkriegs (ab 1941 1945) als eine Form der Rationierung von Lebensmitteln und anderen Ressourcen verwendet wurden. Die Karten enthalten demografische und sozioökonomische Indikatoren für Einzelpersonen und / oder Haushalte wie Titel, Arbeitsplätze und sind daher eine reiche Quelle von Forschungsmaterial.

Zur Vorbereitung auf diesen Lauf führte READ-COOP ein Webinar mit Mitarbeitern des Archivs durch, um ihnen zu zeigen, wie sie Trainingsdaten aufbereiten können. Diese Trainingsdaten werden dann verwendet, um ein Handschriftmodell zu trainieren oder der Engine beizubringen, wie man Dokumente dieser Art liest, damit sie während des Laufs genauere Transkriptionen liefern kann. Zusammen mit den Korrekturlesefähigkeiten der Freiwilligen sollte dies es dem Zagreber Archiv ermöglichen, eine größere Anzahl von Dokumenten als je zuvor zu digitalisieren.

Erfahren Sie mehr

In diesem Video können Sie sich das Webinar zur Vorbereitung von Schulungsdaten ansehen. Sie finden die Integration des Editors für die automatische Handschriftliche Texterkennung auf der Transcribathon-Plattform und können sich die ersten Ergebnisse der Dublin-Papiere ansehen.

Dieser Beitrag wurde geschrieben von Fiona Park, Content Manager READ-COOP SCE, und Philip Kahle, Software Developer, READ COOP.

Handschrifterkennungstechnologie verbessert die Transcribathon-Plattform

Teilen

Verknüpfung von Transcribathon mit der Metagrapho-API

Ein verbesserter Transkriptionseditor

Die Kraft der Zusammenarbeit

Erfahren Sie mehr

Entdecken Sie verwandte Inhalte