Aufbauend auf modernsten maschinellen Übersetzungsdiensten

Veröffentlicht 16. November 2022 von

Eirini Kaldeli (National Technical University of Athens)

Die Herausforderung mehrsprachiger Metadaten

Europeana arbeitet mit Sammlungen, die in nicht weniger als 37 Sprachen beschrieben sind, und ist bestrebt, sie mit Suchbegriffen abzugleichen, die in jeder Sprache vorkommen können. Alle Elemente der Sammlungen auf der Europeana-Website werden in einer Reihe von Metadatenfeldern beschrieben, die wesentliche Informationen über sie vermitteln, wie z. B. Titel und Ersteller. Diese Informationen helfen den Menschen, die Objekte zu entdecken und zu verstehen, an denen sie interessiert sind. Derzeit enthalten die meisten Datensätze Begriffe in einer einzigen Sprache, der Sprache der Datenanbieter. Dieser Mangel an mehrsprachigen Metadaten behindert das Ziel von Europeana, einen breiten sprachübergreifenden Zugang zu seiner Sammlung zu bieten.

Die Bekämpfung der Mehrsprachigkeit in dieser Hinsicht ist ein ziemlich herausforderndes Unterfangen. Zunächst einmal handelt es sich bei Metadaten nicht um eine natürliche Sprache mit vollständigen Sätzen und vorhersehbarer Grammatik; Es wird oft in kurzen Sätzen oder sogar in einzelnen Wörtern dargestellt, was bedeutet, dass der Kontext, der für eine genaue Übersetzung benötigt wird, schwer zu finden ist. Darüber hinaus können die verwendeten Begriffe sehr spezifisch sein; Sie können wie ein allgemeiner Begriff aussehen, haben aber eine andere Bedeutung, wenn sie im Kontext des kulturellen Erbes verwendet werden.

Zum Beispiel könnte der griechische religiöse Begriff, der das Letzte Abendmahl widerspiegelt, fälschlicherweise als geheimes Abendessen übersetzt werden. Die Auswirkung dieser ungenauen Übersetzung - oder das Fehlen einer Übersetzung ins Englische insgesamt - wäre, dass griechische Artefakte mit einem Titel oder einer Beschreibung, die sich auf das jeweilige Thema beziehen, nicht unter den Ergebnissen erscheinen würden, wenn jemand auf der Europeana-Website nach Gemälden über das Letzte Abendmahl sucht.

Aufbau einer Brücke zwischen Europeana und eTranslation Digital Service Communities

Wie arbeitet das Projekt Europeana Translate mit anderen Interessenträgern und Instrumenten zusammen, um diese Herausforderung anzugehen?

eTranslation wurde von der Europäischen Kommission entwickelt und ist ein Sprachinstrument, das mit den neuesten KI-Technologien erstellt wurde und in Bezug auf die großen Datenmengen geschult wurde, die sowohl intern als auch im Rahmen einer EU-weiten Erhebung von Sprachressourcen verfügbar sind. Im ELRC-SHARE-Repository, das von der DSI eTranslation verwendet wird, ist das Kulturerbe unterrepräsentiert, und infolgedessen sind bestehende Technologielösungen weniger gut für den Umgang mit den spezifischen Aspekten von Kulturerbedaten ausgestattet.

In diesem Zusammenhang ist der Aufbau von Kooperationen zwischen Interessenträgern aus der Europeana- und der eTranslation-Gemeinschaft von entscheidender Bedeutung, um maschinelle Übersetzungstools so anzupassen, dass sie den besonderen Bedürfnissen des Kulturerbebereichs gerecht werden können. Europeana Translate zielt darauf ab, die eTranslation und die Europeana-Gemeinschaften zusammenzubringen, um die Herausforderungen beider Sektoren anzugehen. Die Verbesserung des mehrsprachigen Zugangs zum digitalen Kulturerbe erfordert eine Reihe komplementärer Rollen und Fachkenntnisse, die von den verschiedenen Partnern von Europeana Translate wahrgenommen werden (siehesie hier).

Experimente mit maschineller Übersetzung

In den letzten Monaten haben Projektpartner zusammengearbeitet, um Metadatensätze von der Europeana-Website auszuwählen und angemessen zu segmentieren und zu bereinigen. Diese Daten wurden dann vom Projektpartner Pangeanic genutzt, der sie zusätzlich zu 12 Millionen Übersetzungstextsegmenten aus bestehenden generischen Sprachressourcen nutzte, um die Genauigkeit maschineller Übersetzungsalgorithmen bei der Übersetzung von Metadaten zum Kulturerbe zu verbessern.

Pangeanic führte eine Reihe von Experimenten unter Berücksichtigung verschiedener Kombinationen von Trainingsdaten durch. Dazu gehörten zweisprachige Metadaten von Europeana, synthetische Daten aus Metadaten in einer Sprache und mehrsprachige Vokabeln, die für den Bereich des kulturellen Erbes relevant sind. Alternative Datenquellen, über Europeana hinaus, wurden auch für Sprachen in Betracht gezogen, für die es nur wenige oder keine Ressourcen mit Übersetzungen ins Englische gibt. Die automatische Auswertung dieser Experimente anhand etablierter Metriken ermöglichte es den Partnern, über das Setup für die qualitativ hochwertigsten automatischen Übersetzungen zu entscheiden und sie mit den Ergebnissen anderer Übersetzungstools wie Google Translate und eTranslate zu vergleichen. Im Allgemeinen zeigt die Bewertung Verbesserungen der Ergebnisse im Vergleich zu generischen Modellen für die meisten Sprachen.

Die daraus resultierenden maschinellen Übersetzungsmaschinen werden verwendet, um Metadaten aus den 23 EU-Amtssprachen ins Englische (die 24. Amtssprache) zu übersetzen. Diese Übersetzungsmaschinen werden verwendet, um automatische englische Übersetzungen für mindestens 25 Millionen Metadatensätze auf der Europeana-Plattform zu generieren. Die Übersetzungen werden indexiert und angezeigt, um die mehrsprachige Benutzererfahrung auf der Europeana-Plattform zu verbessern. Wenn sie die Person, die nach Artefakten sucht, die vom religiösen Thema des "Letzten Abendmahls" inspiriert sind, nach der Fertigstellung von Europeana Translate erneut besuchen, können sie auch auf Gemälde aus Griechenland, Rumänien und vielen anderen Ländern zugreifen, die derzeit nicht in den Suchergebnissen enthalten sind.

Darüber hinaus wird Europeana Translate die ausgewählten und entsprechend verarbeiteten Sprachressourcen, die sie über das ELRC-SHARE-Repository erstellt hat, unter einer kostenlosen Wiederverwendungslizenz (CC0) offen zur Verfügung stellen. Dies wird es der Gemeinschaft der maschinellen Übersetzung ermöglichen, offene Daten zu nutzen, um ihre Übersetzungsdienste im Bereich des kulturellen Erbes zu trainieren, anzupassen und zu testen.

Menschen in die Schleife einbeziehen

In den kommenden Monaten werden zwei ergänzende Auswertungen der durch die Experimente erstellten automatischen Übersetzungen von Linguisten und Fachleuten des Kulturerbes durchgeführt.

Das Tool zur Bewertung maschineller Übersetzungen wird verwendet, um die Genauigkeit und Leistung aller 23 Übersetzungsmaschinen zu bewerten. Es werden drei Crowdsourcing-Kampagnen organisiert, um Fachleute des Kulturerbes für die Prüfung und Bewertung der automatischen Übersetzung zu gewinnen (zu den diesbezüglich zu bewertenden Sprachen gehören Französisch, Italienisch und Niederländisch). Die Kampagnen werden auch das Publikum ansprechen und das Bewusstsein in der Gemeinschaft des Kulturerbes für die Leistungsfähigkeit automatischer Übersetzungsdienste schärfen. Die Plattform CrowdHeritage wird genutzt, um die automatischen Übersetzungen im Kontext der Kulturgüter, auf die sie sich beziehen, zu präsentieren.

Die Ergebnisse dieser Evaluierungen werden nützliche Erkenntnisse liefern und zur Bestimmung der akzeptablen Qualitätsschwelle für die Veröffentlichung automatischer Übersetzungen auf Europeana und für die Nutzung auf den eigenen Plattformen von Organisationen des Kulturerbes verwendet werden.

Erfahren Sie mehr und engagieren Sie sich

Um mehr zu erfahren, können Sie sich ein Einführungsvideo, ein Video über die ersten Ergebnisse des Projekts oder die Architektur von Europeana Translate in diesem Papier, das auf der Europäischen Vereinigung für maschinelle Übersetzung 2022 vorgestellt wurde, ansehen. Fachleute aus den Bereichen audiovisuelle Medien, Mode und Museen haben die Möglichkeit, einen Beitrag zu dem Projekt zu leisten, indem sie die Ergebnisse in unseren Nischen-Sourcing-Kampagnen, die Anfang 2023 stattfinden werden, bewerten. Behalten Sie die Europeana Pro Event-Seite im Auge, um mehr zu erfahren.