Permettre la traduction automatique pour l'enrichissement
Un outil API développé par Pangeanic, partenaire du projet, détecte le langage utilisé dans les métadonnées Europeana et permet leur traduction automatique. Baptisé Heritage Metadata Automatic Translation Service (HM ATS), cet outil fait partie d’une suite d’outils d’enrichissement sémantique développée par Europeana XX.
Pour créer l'outil, Pangeanic a construit 10 moteurs de traduction automatique neuronale (traduisant l'italien, l'allemand, le tchèque, le grec, le français, le suédois, le catalan, le néerlandais, le polonais et l'espagnol vers l'anglais). Ils ont utilisé des données de formation provenant des propres référentiels de Pangeanic et des données ouvertes sur l’internet. Pangeanic a également employé des traducteurs pour traduire un nombre limité d'enregistrements provenant des dépôts Europeana afin de disposer de données de formation spécifiques à Europeana pour plusieurs langues.
L'outil a été utilisé pour traduire et enrichir environ deux millions et demi d'enregistrements au cours du projet. Pangeanic a étendu et affiné avec succès l'outil pour répondre aux exigences de performance d'un tel volume de données. Utilisez le code API vous-même.
Pour évaluer et valider la qualité de la traduction automatique, les partenaires ont également mis en place un système de validation de la traduction (basé sur LabelStudio). Les professionnels du patrimoine culturel et les locuteurs natifs des langues concernées ont validé plus de 2 700 traductions à l'aide de ce système. Les retours ont été extrêmement positifs, confirmant la haute qualité de la traduction automatique neuronale et son bon fonctionnement dans le domaine du patrimoine culturel numérique.
Les traductions validées seront utilisées pour améliorer encore les moteurs de traduction automatique dans le cadre du projet Europeana Translate, auquel Pangeanic participe également. L’objectif de ce projet est d’aider Europeana à progresser dans la mise en œuvre de sa stratégie multilingue, en fournissant des traductions de métadonnées qui permettront de mieux rechercher et afficher ses collections dans leurs langues maternelles et dans les langues des utilisateurs.
Enrichissement pour les ensembles de données
SAGE, un outil en ligne pour la production, l’enrichissement, la publication, l’accès et la gestion d’ensembles de données RDF, a été développé par l’Université technique nationale d’Athènes (NTUA) pour Europeana XX. RDF (Resource Description Framework) est un langage utilisé pour représenter le contenu d'un ensemble de données. Les données RDF peuvent être directement importées ou générées à partir de diverses sources et formats de données, organisées en ensembles de données et enrichies à l'aide d'annotateurs. Ces enrichissements peuvent ensuite être validés manuellement. Tous les ensembles de données, y compris les annotations, peuvent être publiés dans les magasins RDF, indexés et accessibles via des appels API.
Grâce à SAGE, certaines parties d'ensembles de données publiés peuvent désormais être annotées et enrichies via des services API externes, tels que des outils reliant les données à Wikidata, DBPedia, Geonames et d'autres ressources pertinentes, ou des outils qui détectent les occurrences de termes de vocabulaire dans les données. Une fois que les enrichissements sont effectués dans SAGE, ils sont ensuite validés manuellement via un système qui permet des validations en masse en utilisant le regroupement de texte et le tri de fréquence de texte, l'attribution de tâches de validation à plusieurs utilisateurs et un suivi étroit du processus de validation global.
L'outil SAGE a également été utilisé dans le projet Pagode pour enrichir automatiquement plus de 20 000 enregistrements. Il sera également utilisé dans le cadre du projet CRAFTED pour analyser les champs de métadonnées et le texte extrait des outils d’analyse de contenu de l’intelligence artificielle afin d’identifier et de supprimer l’incertitude des entités nommées. L'objectif ultime est d'enrichir plus de 100 000 enregistrements et de permettre la validation et l'évaluation par les utilisateurs des entités extraites automatiquement.
En savoir plus
Vous pouvez explorer tous les outils développés dans le cadre du projet Europeana XX (et d’autres projets de services génériques) sur la page Europeana Services and Tools.
