Automatische Übersetzung zur Bereicherung aktivieren
Ein vom Projektpartner Pangeanic entwickeltes API-Tool erkennt die in Europeana-Metadaten verwendete Sprache und ermöglicht eine maschinelle Übersetzung. Dieses Tool, das als Heritage Metadata Automatic Translation Service (HM ATS) bezeichnet wird, ist Teil einer Reihe von semantischen Anreicherungswerkzeugen, die von Europeana XX entwickelt wurden.
Um das Tool zu erstellen, baute Pangeanic 10 neuronale maschinelle Übersetzungsmaschinen (übersetzte Italienisch, Deutsch, Tschechisch, Griechisch, Französisch, Schwedisch, Katalanisch, Niederländisch, Polnisch und Spanisch ins Englische). Sie nutzten Schulungsdaten aus den eigenen Repositorien von Pangeanic und offene Daten im Internet. Pangeanic beschäftigte auch Übersetzer, um eine begrenzte Anzahl von Aufzeichnungen aus Europeana-Repositorien zu übersetzen, um Europeana-spezifische Schulungsdaten für mehrere Sprachen zu erhalten.
Das Tool wurde verwendet, um während des Projekts etwa zweieinhalb Millionen Datensätze zu übersetzen und anzureichern. Pangeanic hat das Tool erfolgreich erweitert und optimiert, um den Leistungsanforderungen einer so großen Datenmenge gerecht zu werden. Verwenden Sie den API-Code selbst.
Um die Qualität der maschinellen Übersetzung zu bewerten und zu validieren, haben die Partner auch ein Übersetzungsvalidierungssystem eingerichtet (basierend auf LabelStudio). Fachleute des Kulturerbes und Muttersprachler relevanter Sprachen haben mit diesem System mehr als 2.700 Übersetzungen validiert. Das Feedback war überwältigend positiv und bestätigte die hohe Qualität der neuronalen maschinellen Übersetzung und dass sie für den Bereich des digitalen Kulturerbes gut funktioniert.
Validierte Übersetzungen werden zur weiteren Verbesserung maschineller Übersetzungsmaschinen im Projekt Europeana Translate verwendet, an dem auch Pangeanic beteiligt ist. Ziel dieses Projekts ist es, Europeana bei der Umsetzung seiner mehrsprachigen Strategie zu unterstützen, indem Metadatenübersetzungen bereitgestellt werden, die eine bessere Suche und Anzeige seiner Sammlungen in ihren Muttersprachen und den Sprachen der Nutzer ermöglichen.
Anreicherung für Datensätze
SAGE, ein webbasiertes Tool zur Erstellung, Anreicherung, Veröffentlichung, zum Zugriff auf und zur Verwaltung von RDF-Datensätzen, wurde von der Nationalen Technischen Universität Athen (NTUA) für Europeana XX entwickelt. RDF (Resource Description Framework) ist eine Sprache, die verwendet wird, um den Inhalt eines Datensatzes darzustellen. RDF-Daten können direkt aus verschiedenen Datenquellen und Formaten importiert oder generiert, in Datensätzen organisiert und mit Anmerkungen angereichert werden. Diese Anreicherungen können dann manuell validiert werden. Alle Datensätze, einschließlich aller Anmerkungen, können in RDF-Speichern veröffentlicht, indiziert und über API-Aufrufe aufgerufen werden.
Dank SAGE können ausgewählte Teile veröffentlichter Datensätze nun auch über externe API-Dienste kommentiert und angereichert werden, wie Tools, die Daten mit relevanten Wikidata, DBPedia, Geonames und anderen Ressourcen verknüpfen, oder Tools, die das Auftreten von Vokabelbegriffen in den Daten erkennen. Sobald Anreicherungen in SAGE vorgenommen wurden, werden sie manuell über ein System validiert, das Massenvalidierungen mithilfe von Textgruppierung und Textfrequenzsortierung, die Zuweisung von Validierungsaufgaben an mehrere Benutzer und eine genaue Überwachung des gesamten Validierungsprozesses ermöglicht.
Das SAGE-Tool wurde auch im Pagode-Projekt verwendet, um automatisch mehr als 20.000 Datensätze anzureichern. Es wird auch im CRAFTED-Projekt zur Analyse von Metadatenfeldern und Texten verwendet, die aus Tools zur Analyse von Inhalten der künstlichen Intelligenz extrahiert wurden, um die Unsicherheit benannter Entitäten zu identifizieren und zu beseitigen. Das ultimative Ziel ist es, mehr als 100.000 Datensätze anzureichern und die Benutzervalidierung und -bewertung automatisch extrahierter Entitäten zu ermöglichen.
Erfahren Sie mehr
Sie können alle im Rahmen des Projekts Europeana XX (und anderer Projekte im Bereich Generic Services) entwickelten Instrumente auf der Seite Europeana Services and Tools erkunden.
