Europeana Übersetzen
Das eTranslation CEF-Telekommunikationsprojekt Europeana Translate zielt darauf ab, die Verbindungen zwischen der eTranslation-Infrastruktur und dem gemeinsamen europäischen Datenraum für das kulturelle Erbe, der von der Europeana-Initiative bereitgestellt wird, zum Nutzen beider zu stärken. Einerseits zielt das Projekt darauf ab, die Nutzbarkeit der Ressourcen des Kulturerbes zu verbessern, indem Datensätze zum Kulturerbe mit mehrsprachigen Metadaten angereichert werden. Zum anderen werden die über die Koordinierung der europäischen Sprachressourcen offen zur Verfügung gestellten Sprachressourcen durch Metadaten von Millionen von Objekten des kulturellen Erbes erweitert, die sorgfältig ausgewählt, gereinigt und normalisiert wurden, damit sie für Schulungszwecke zugänglich werden.
Zu diesem Zweck hat Europeana Translate maschinelle Übersetzungstools entwickelt und eingesetzt, die an die Bedürfnisse des Kulturerbesektors angepasst sind. Die Instrumente werden eingesetzt, um die Metadaten von mehr als 25 Millionen Datensätzen, die derzeit über die Infrastruktur von Europeana verfügbar sind, von 22 EU-Amtssprachen ins Englische zu übersetzen und so die mehrsprachige Erfahrung der Nutzer zu verbessern.
Im Laufe des Projekts trainierten die Partner eine Reihe von Übersetzungs-Engines, die vom Partner Pangeanic bereitgestellt wurden, mit einer Auswahl von Metadaten, die aus der Europeana-Infrastruktur ausgewählt wurden, einschließlich zwei- und einsprachiger Daten sowie mehrsprachiger Vokabeln. Zusätzliche Daten, die von der OPUS-Sammelwebsite ausgewählt wurden, wurden auch für Sprachen berücksichtigt, die nicht ausreichend vertreten waren. Es wurden eine Reihe von Experimenten durchgeführt, um die beste Kombination aus Trainingsdaten und der Einrichtung der Engines für jede Sprache zu bestimmen. Durch die Aufteilung der Daten zwischen Schulungs- und Testsätzen wurde für alle Sprachpaare eine automatische Bewertung auf der Grundlage von Standardmetriken (wie BLEU und TER) durchgeführt. Die Ergebnisse zeigen eine deutliche Verbesserung gegenüber den generischen Pangeanic-Modellen (vor dem In-Domain-Training) und der eTranslation DSI für die meisten Sprachen.
Bewertung der automatischen Übersetzung durch menschliche Experten
Die automatischen Übersetzungen wurden auch von Linguisten und Kulturerbeexperten umfassend bewertet. Die Bewerter wurden gebeten, die automatischen Übersetzungen ins Englische auf einer Skala von 0 bis 100 zu bewerten, wobei Aspekte wie fließend (grammatische Korrektheit), Genauigkeit (allgemeine Bedeutung) und Angemessenheit (angemessene Verwendung der Terminologie) berücksichtigt wurden. Sie wurden auch gebeten, zusätzliches Feedback zu geben, einschließlich der Meldung wichtiger und wiederkehrender Fehler. Über die CrowdHeritage-Plattform wurden drei Crowdsourcing-Kampagnen organisiert, um Mitglieder des Kulturerbesektors einzubinden. Insgesamt nahmen 44 fachkundige Linguisten und 29 Fachleute für das Kulturerbe teil, die für die Mehrheit der 22 Sprachen recht hohe Bewertungen (über 80 %) gaben.
Die Ergebnisse der menschlichen Bewertung lieferten uns Einblicke in das Verhalten der maschinellen Übersetzungsmaschinen für verschiedene Sprachen. Eine eingehende statistische Analyse der zugewiesenen Bewertungen von Menschen in Korrelation mit den automatischen Konfidenzwerten, die von den maschinellen Übersetzungsmaschinen berechnet wurden, ermöglichte es uns, geeignete Qualitätsschwellen für die Veröffentlichung von Übersetzungen aus verschiedenen Sprachen in die Europeana-Infrastruktur zu ermitteln.
Vorteile für Nutzer und Einrichtungen des Kulturerbes
Die Übersetzungsmaschinen werden von der Europeana-Infrastruktur verwendet, um automatische englische Übersetzungen von Metadaten zu erstellen, zu indexieren, zu teilen und anzuzeigen, die es den Menschen ermöglichen, Material besser zu entdecken, zu analysieren und wiederzuverwenden.
Die positiven Auswirkungen dieser Arbeit wurden durch eine Folgenabschätzungsstudie bestätigt, die von 27 Linguisten und 18 Experten für das Kulturerbe ausgefüllt wurde. Auf die Frage nach dem Mehrwert, den automatische englische Übersetzungen für die Suche und Anzeige von Kulturerbegegenständen auf der Europeana-Website mit sich bringen können, hielten beide Gemeinschaften dies für wichtig. Sie berichteten auch, dass sie die erwartete erhöhte Menge an Suchergebnissen schätzten, die Kulturgüter enthalten würden, die derzeit bei der Suche in englischer Sprache nicht zurückgegeben werden: 83,4 % bzw. 62,9 % der Experten für das Kulturerbe und der Linguisten hielten diese Verbesserung für wertvoll.
Darüber hinaus können die im Rahmen des Projekts eingerichteten Übersetzungsmaschinen für Datenanbieter nützlich sein, die die Metadaten ihrer Sammlungen ins Englische übersetzen möchten, wodurch die Zugänglichkeit ihrer Sammlungen verbessert wird. Nutzer der MINT-Aggregationsplattform können die bestehende API-Verknüpfung mit den Engines direkt nutzen, während Einrichtungen des Kulturerbes mit technischem Fachwissen die leicht einsetzbaren Engines für maschinelle Übersetzung nutzen können, die im ELG-Repository offen verfügbar sind. Alle Experten für Kulturerbe, die an der Umfrage teilgenommen haben, erklärten, dass sie erwägen würden, die Europeana Translate-Tools zu verwenden, um die Sammlungen ihrer Organisation mit automatischen Übersetzungen zu bereichern, um die Auffindbarkeit zu verbessern.
Europeana Translate Event - wie maschinelle Übersetzung & mehrsprachiger Zugang das kulturelle Erbe beeinflusst
Sind Sie daran interessiert, mehr über das Projekt Europeana Translate, seine Methodik und Ergebnisse zu erfahren? Möchten Sie auch Ihr Wissen über modernste maschinelle Übersetzungstechnologien vertiefen und wie sie im Bereich des Kulturerbes eingesetzt werden können?
Dann nehmen Sie an der Europeana Translate Event - How machine translation & multilingual access impacts cultural heritage teil. Dies ist eine Online-Veranstaltung, die am 13. April 2023 von 14:00 bis 17:00 Uhr MESZ stattfindet. Sie werden hören, wie die Projektpartner die Methodik und die Ergebnisse dieser zweijährigen Arbeit ausführlich erläutern. Ähnliche Projekte werden ebenfalls diskutiert, wobei stets die Bedeutung automatisierter Übersetzungen von Daten/Metadaten des Kulturerbes kritisch zu berücksichtigen ist, wobei Überlegungen zu künftigen Schritten, der Nutzbarkeit und den Herausforderungen der KI-Technologie für den Kulturerbesektor angestellt werden.
