S'appuyer sur des services de traduction automatique de pointe

Publié 16 novembre 2022 par

Eirini Kaldeli (National Technical University of Athens)

Le défi des métadonnées multilingues

Europeana travaille avec des collections décrites dans pas moins de 37 langues et s'efforce de les faire correspondre avec des termes de recherche qui peuvent se produire dans n'importe quelle langue. Tous les éléments des collections du site web Europeana sont décrits dans un ensemble de champs de métadonnées qui transmettent des informations essentielles à leur sujet, telles que leur titre et leur créateur. Ces informations aident les gens à découvrir et à comprendre les objets qui les intéressent. Actuellement, la majorité des enregistrements contiennent des termes dans une seule langue, la langue des fournisseurs de données. Ce manque de métadonnées multilingues entrave l’objectif d’Europeana d’offrir un large accès à sa collection dans toutes les langues.

Aborder la question du multilinguisme à cet égard est une entreprise assez difficile. Tout d’abord, les métadonnées ne sont pas un langage naturel avec des phrases complètes et une grammaire prévisible; il est souvent présenté en phrases courtes ou même en mots simples, ce qui signifie que le contexte nécessaire à une traduction précise est difficile à trouver. En outre, les termes utilisés peuvent être très spécifiques; ils peuvent ressembler à un terme général, mais ont une signification différente lorsqu’ils sont utilisés dans un contexte de patrimoine culturel.

Par exemple, le terme religieux grec reflétant la Cène pourrait être incorrectement traduit par dîner secret. La répercussion de cette traduction inexacte - ou l'absence d'une traduction vers l'anglais tout à fait - serait que les artefacts grecs avec un titre ou une description se référant au thème particulier n'apparaîtraient pas parmi les résultats lorsque quelqu'un recherche des peintures sur la Cène sur le site Europeana.

Construire un pont entre Europeana et les communautés de services numériques eTranslation

Comment le projet Europeana Translate travaille-t-il avec d'autres parties prenantes et outils pour relever ce défi?

Développé par la Commission européenne, eTranslation est un outil linguistique créé à l’aide des technologies d’IA les plus récentes et a été formé aux grandes quantités de données disponibles à la fois en interne et recueillies dans le cadre d’un effort de collecte de ressources linguistiques à l’échelle de l’UE. Dans le référentiel ELRC-SHARE utilisé par eTranslation DSI, le patrimoine culturel est sous-représenté et, par conséquent, les solutions technologiques existantes sont moins bien équipées pour traiter les aspects spécifiques des données sur le patrimoine culturel.

Dans ce contexte, la mise en place de collaborations entre les parties prenantes des communautés Europeana et eTranslation est essentielle pour personnaliser les outils de traduction automatique afin qu’ils puissent répondre aux besoins particuliers du domaine du patrimoine culturel. Europeana Translate cherche à rassembler les communautés eTranslation et Europeana pour relever les défis rencontrés par les deux secteurs. L’amélioration de l’accès multilingue au patrimoine culturel numérique nécessite un certain nombre de rôles et d’expertises complémentaires, qui sont servis par les divers partenaires d’Europeana Translate (voirici).

Expériences avec la traduction automatique

Au cours des derniers mois, les partenaires du projet ont travaillé ensemble pour sélectionner et segmenter de manière appropriée et nettoyer les enregistrements de métadonnées du site Web Europeana. Ces données ont ensuite été exploitées par le partenaire du projet Pangeanic, qui les a utilisées en plus de 12 millions de segments textuels de traduction à partir de ressources linguistiques génériques existantes pour améliorer la précision des algorithmes de traduction automatique lors de la traduction des métadonnées du patrimoine culturel.

Pangeanic a mené un certain nombre d'expériences en considérant différentes combinaisons de données d'entraînement. Il s'agissait notamment de métadonnées bilingues d'Europeana, de données synthétiques produites à partir de métadonnées dans une langue et de vocabulaires multilingues pertinents pour le domaine du patrimoine culturel. D'autres sources de données, au-delà d'Europeana, ont également été envisagées pour les langues pour lesquelles il existe peu ou pas de ressources avec des traductions vers l'anglais. L'évaluation automatique de ces expériences à l'aide de mesures établies a permis aux partenaires de décider de la configuration des traductions automatiques de la meilleure qualité et de les comparer aux résultats obtenus par d'autres outils de traduction, tels que Google Translate et eTranslate. En général, l'évaluation démontre une amélioration des résultats par rapport aux modèles génériques pour la plupart des langues.

Les moteurs de traduction automatique résultant de ce processus seront utilisés pour traduire les métadonnées des 23 langues officielles de l’UE vers l’anglais (la 24e langue officielle). Ces moteurs de traduction seront utilisés pour générer des traductions automatiques en anglais pour au moins 25 millions d'enregistrements de métadonnées sur la plateforme Europeana. Les traductions seront indexées et affichées, ce qui améliorera l’expérience utilisateur multilingue sur la plateforme Europeana. En revoyant la personne qui recherche des artefacts inspirés par le thème religieux de la «Dernière Cène», après l'achèvement d'Europeana Translate, ils pourront également accéder à des peintures de Grèce, de Roumanie et de nombreux autres pays qui ne sont actuellement pas inclus dans les résultats de recherche.

En outre, Europeana Translate mettra ouvertement à disposition les ressources linguistiques sélectionnées et traitées de manière appropriée qu’elle a produites via le référentiel ELRC-SHARE dans le cadre d’une licence de réutilisation gratuite (CC0). Cela permettra à la communauté de la traduction automatique d'utiliser les données ouvertes pour former, adapter et tester ses services de traduction dans le domaine du patrimoine culturel.

Impliquer les humains dans la boucle

Dans les prochains mois, deux évaluations complémentaires des traductions automatiques produites par les expériences seront réalisées par des linguistes et des professionnels du patrimoine culturel.

L'outil d'évaluation de la traduction automatique sera utilisé pour évaluer la précision et les performances des 23 moteurs de traduction. Trois campagnes de crowdsourcing seront organisées pour mobiliser les professionnels du patrimoine culturel afin de tester et d'évaluer la traduction automatique (les langues à évaluer à cet égard sont le français, l'italien et le néerlandais). Les campagnes mobiliseront également le public et sensibiliseront la communauté du patrimoine culturel au pouvoir des services de traduction automatique. La plateforme CrowdHeritage sera utilisée pour présenter les traductions automatiques dans le contexte des éléments du patrimoine culturel auxquels elles se réfèrent.

Les résultats de ces évaluations fourniront des informations utiles et seront utilisés pour déterminer le seuil de qualité acceptable pour la publication de traductions automatiques vers Europeana et pour une utilisation sur les propres plateformes des organisations du patrimoine culturel.

En savoir plus et s'impliquer

Pour en savoir plus, vous pouvez visionner une vidéo d’introduction , une vidéo sur les premiers résultats du projet , ou lire sur l’architecture d’Europeana Translate dans cet article présenté à l’Association européenne pour la traduction automatique 2022. Les professionnels de l'audiovisuel, de la mode et des musées auront la chance de contribuer au projet en aidant à évaluer les résultats de nos campagnes d'approvisionnement de niche, qui auront lieu début 2023. Gardez un œil sur la page de l'événement Europeana Pro pour en savoir plus.