Europeana Traduire
Le projet eTranslation CEF Telecom Europeana Translate vise à renforcer les connexions entre l'infrastructure eTranslation et l'espace européen commun des données pour le patrimoine culturel, déployé par l'initiative Europeana, au profit des deux. D'une part, le projet vise à améliorer la facilité d'utilisation des ressources du patrimoine culturel en enrichissant les ensembles de données du patrimoine culturel avec des métadonnées multilingues. D’autre part, il améliore les ressources linguistiques rendues ouvertement disponibles par l’intermédiaire de la coordination européenne des ressources linguistiques grâce à des métadonnées provenant de millions d’objets du patrimoine culturel, qui ont été soigneusement sélectionnés, nettoyés et normalisés afin qu’ils puissent être utilisés à des fins de formation.
À cette fin, Europeana Translate a développé et déployé des outils de traduction automatique adaptés aux besoins du secteur du patrimoine culturel. Les outils sont utilisés pour traduire les métadonnées de plus de 25 millions d’enregistrements actuellement disponibles par l’intermédiaire de l’infrastructure d’Europeana de 22 langues officielles de l’UE vers l’anglais, améliorant ainsi l’expérience multilingue fournie à ses utilisateurs.
Au cours du projet, les partenaires ont formé un ensemble de moteurs de traduction fournis par le partenaire Pangeanic avec une sélection de métadonnées sélectionnées dans l'infrastructure Europeana, y compris des données bilingues et monolingues ainsi que des vocabulaires multilingues. Des données supplémentaires sélectionnées à partir du site Web de collecte de l'OPUS ont également été prises en compte pour les langues qui n'étaient pas suffisamment représentées. Un certain nombre d'expériences ont été réalisées pour décider de la meilleure combinaison de données d'entraînement et de configuration des moteurs pour chaque langue. En répartissant les données entre les ensembles de formation et de test, une évaluation automatique basée sur des mesures standard (telles que BLEU et TER) a été effectuée pour toutes les paires de langues. Les résultats démontrent une amélioration considérable par rapport aux modèles Pangeanic génériques (avant la formation dans le domaine) et à l'eTranslation DSI pour la plupart des langues.
Évaluation de la traduction automatique par des experts humains
Les traductions automatiques ont également fait l'objet d'une évaluation approfondie par des linguistes et des experts du patrimoine culturel. Les évaluateurs ont été invités à évaluer les traductions automatiques en anglais sur une échelle de 0 à 100, en tenant compte d'aspects tels que la fluidité (exactitude grammaticale), la précision (signification générale) et l'adéquation (utilisation appropriée de la terminologie). Ils ont également été invités à fournir des commentaires supplémentaires, notamment en signalant les erreurs importantes et récurrentes. Trois campagnes de crowdsourcing ont été organisées via la plateforme CrowdHeritage pour mobiliser les membres du secteur du patrimoine culturel. Au total, 44 linguistes experts et 29 professionnels du patrimoine culturel y ont participé, qui ont obtenu des notes assez élevées (plus de 80 %) pour la majorité des 22 langues.
Les résultats obtenus par l'évaluation humaine nous ont fourni des informations sur le comportement des moteurs de traduction automatique pour différentes langues. Une analyse statistique approfondie des notes attribuées par les humains, en corrélation avec les scores de confiance automatiques calculés par les moteurs de traduction automatique, nous a permis de déterminer des seuils de qualité appropriés pour la publication de traductions de différentes langues vers l'infrastructure Europeana.
Avantages pour les utilisateurs et les institutions du patrimoine culturel
Les moteurs de traduction sont utilisés par l'infrastructure Europeana pour produire, indexer, partager et afficher des traductions automatiques en anglais des métadonnées, ce qui permettra aux utilisateurs de mieux découvrir, analyser et réutiliser le matériel.
L'impact positif de ces travaux a été confirmé par une étude d'analyse d'impact réalisée par 27 linguistes et 18 experts du patrimoine culturel. Interrogées sur la valeur ajoutée que les traductions automatiques en anglais peuvent apporter à la recherche et à l’affichage d’éléments du patrimoine culturel sur le site web Europeana, les deux communautés l’ont jugée importante. Ils ont également indiqué qu'ils appréciaient l'augmentation attendue du nombre de résultats de recherche, qui comprendrait des éléments du patrimoine culturel qui ne sont pas actuellement retournés lors de la recherche en anglais: 83,4 % et 62,9 % des experts du patrimoine culturel et des linguistes ont estimé que cette amélioration était précieuse.
En outre, les moteurs de traduction mis en place par le projet peuvent être utiles aux fournisseurs de données qui souhaitent traduire les métadonnées de leurs collections en anglais, améliorant ainsi l’accessibilité de leurs collections. Les utilisateurs de la plateforme d’agrégation MINT peuvent utiliser directement l’interface API existante avec les moteurs, tandis que les institutions du patrimoine culturel disposant d’une expertise technique peuvent tirer parti des moteurs de traduction automatique facilement déployables mis à disposition ouvertement sur le référentiel ELG. Tous les experts du patrimoine culturel qui ont participé à l'enquête ont déclaré qu'ils envisageraient d'utiliser les outils Europeana Translate pour enrichir les collections de leur organisation avec des traductions automatiques afin d'améliorer la découvrabilité.
Europeana Translate Event - Comment la traduction automatique & l'accès multilingue impacte le patrimoine culturel
Vous souhaitez en savoir plus sur le projet Europeana Translate, sa méthodologie et ses résultats? Souhaitez-vous également approfondir vos connaissances sur les technologies de traduction automatique de pointe et sur la manière dont elles peuvent être appliquées dans le secteur du patrimoine culturel?
Alors rejoignez-nous à l'événement Europeana Translate - Comment la traduction automatique & l'accès multilingue impacte le patrimoine culturel. Il s'agit d'un événement en ligne qui aura lieu le 13 avril 2023, de 14h00 à 17h00 CEST. Vous entendrez les partenaires du projet expliquer en détail la méthodologie et les résultats obtenus au cours de ces deux années de travail. Des projets similaires seront également discutés, en tenant toujours compte de manière critique de l’importance des traductions automatisées de données/métadonnées sur le patrimoine culturel, avec des réflexions sur les étapes futures, la facilité d’utilisation et les défis de la technologie de l’IA pour le secteur du patrimoine culturel.
