El reto de los metadatos multilingües
Europeana trabaja con colecciones descritas en no menos de 37 idiomas y se esfuerza por emparejarlas con términos de búsqueda que pueden ocurrir en cualquier idioma. Todos los elementos de las colecciones en el sitio web de Europeana se describen en un conjunto de campos de metadatos que transmiten información esencial sobre ellos, como su título y creador. Esta información ayuda a las personas a descubrir y comprender los objetos que les interesan. En la actualidad, la mayoría de los registros contienen términos en una sola lengua, la lengua de los proveedores de datos. Esta falta de metadatos multilingües obstaculiza el objetivo de Europeana de ofrecer un amplio acceso a su colección en todas las lenguas.
Abordar el multilingüismo a este respecto es todo un reto. Para empezar, los metadatos no son un lenguaje natural con oraciones completas y gramática predecible; A menudo se presenta en frases cortas o incluso palabras simples, lo que significa que el contexto necesario para una traducción precisa es difícil de encontrar. Además, los términos utilizados pueden ser muy específicos; pueden parecer un término general, pero tienen un significado diferente cuando se utilizan en un contexto de patrimonio cultural.
Por ejemplo, el término religioso griego que refleja la Última Cena podría traducirse incorrectamente como Cena Secreta. La repercusión de esta traducción inexacta, o la ausencia de una traducción al inglés por completo, sería que los artefactos griegos con un título o descripción que se refiera al tema en particular no aparecerían entre los resultados cuando alguien busque pinturas sobre la Última Cena en el sitio web de Europeana.
Construir un puente entre Europeana y las comunidades de servicios digitales de eTranslation
¿Cómo está trabajando el proyecto Europeana Translate con otras partes interesadas y herramientas para abordar este desafío?
Desarrollado por la Comisión Europea, eTranslation es una herramienta lingüística creada utilizando las últimas tecnologías de IA y ha recibido formación sobre la gran cantidad de datos disponibles tanto internamente como recopilados a través de un esfuerzo de recopilación de recursos lingüísticos a escala de la UE. En el repositorio ELRC-SHARE utilizado por eTranslation DSI, el patrimonio cultural está infrarrepresentado y, como resultado, las soluciones tecnológicas existentes están menos equipadas para manejar los aspectos específicos de los datos del patrimonio cultural.
En este contexto, la creación de colaboraciones entre las partes interesadas de las comunidades Europeana y eTranslation es clave para personalizar las herramientas de traducción automática de modo que puedan satisfacer las necesidades particulares del ámbito del patrimonio cultural. Europeana Translate pretende reunir a las comunidades de eTranslation y Europeana para abordar los retos a los que se enfrentan ambos sectores. La mejora del acceso multilingüe al patrimonio cultural digital requiere una serie de funciones y conocimientos complementarios, que son atendidos por los diversos socios de Europeana Translate (véanseaquí).
Experimentos con traducción automática
En los últimos meses, los socios del proyecto han trabajado juntos para seleccionar y segmentar adecuadamente y limpiar los registros de metadatos del sitio web de Europeana. Estos datos fueron explotados por el socio del proyecto Pangeanic, que los utilizó además de los 12 millones de segmentos textuales de traducción de los recursos lingüísticos genéricos existentes para mejorar la precisión de los algoritmos de traducción automática al traducir metadatos del patrimonio cultural.
Pangeanic realizó una serie de experimentos considerando diferentes combinaciones de datos de entrenamiento. Esto incluía metadatos bilingües de Europeana, datos sintéticos producidos a partir de metadatos en una lengua y vocabularios multilingües pertinentes para el ámbito del patrimonio cultural. También se consideraron fuentes alternativas de datos, más allá de Europeana, para los idiomas para los que existen pocos o ningún recurso con traducciones al inglés. La evaluación automática de estos experimentos utilizando métricas establecidas permitió a los socios decidir sobre la configuración de las traducciones automáticas de mejor calidad y compararlas con los resultados obtenidos por otras herramientas de traducción, como Google Translate y eTranslate. En general, la evaluación demuestra mejoras en los resultados en comparación con los modelos genéricos para la mayoría de los idiomas.
Los motores de traducción automática resultantes de este proceso se utilizarán para traducir metadatos de las veintitrés lenguas oficiales de la UE al inglés (la vigésima cuarta lengua oficial). Estos motores de traducción se utilizarán para generar traducciones automáticas al inglés de al menos 25 millones de registros de metadatos en la plataforma Europeana. Las traducciones se indexarán y mostrarán, mejorando la experiencia del usuario multilingüe en la plataforma Europeana. Revisando a la persona que busca artefactos inspirados en el tema religioso de la 'Última Cena', después de la finalización de Europeana Translate, también podrán acceder a pinturas de Grecia, Rumania y muchos otros países que actualmente no están incluidos en los resultados de búsqueda.
Además, Europeana Translate pondrá a disposición abierta los recursos lingüísticos seleccionados y adecuadamente procesados que produjo a través del repositorio ELRC-SHARE bajo una licencia de reutilización gratuita (CC0). Esto permitirá a la comunidad de traducción automática hacer uso de datos abiertos para capacitar, adaptar y probar sus servicios de traducción en el ámbito del patrimonio cultural.
Involucrar a los humanos en el bucle
En los próximos meses, lingüistas y profesionales del patrimonio cultural realizarán dos evaluaciones complementarias de las traducciones automáticas producidas por los experimentos.
La herramienta de evaluación de traducción automática se utilizará para evaluar la precisión y el rendimiento de los 23 motores de traducción. Se organizarán tres campañas de crowdsourcing para involucrar a profesionales del patrimonio cultural para ayudar a probar y evaluar la traducción automática (las lenguas que se evaluarán a este respecto incluyen el francés, el italiano y el neerlandés). Las campañas también atraerán al público y sensibilizarán a la comunidad del patrimonio cultural sobre el poder de los servicios de traducción automática. La plataforma CrowdHeritage se utilizará para presentar las traducciones automáticas en el contexto de los elementos del patrimonio cultural a los que se refieren.
Los resultados de estas evaluaciones proporcionarán información útil y se utilizarán para determinar el umbral de calidad aceptable para la publicación de traducciones automáticas a Europeana y para su uso en las propias plataformas de las organizaciones de patrimonio cultural.
Obtenga más información e involúcrese
Para obtener más información, puede ver un vídeo introductorio, un vídeo sobre los primeros resultados del proyecto o leer sobre la arquitectura de Europeana Translate en este documento presentado en la Asociación Europea de Traducción Automática 2022. Los profesionales del sector audiovisual, de la moda y de los museos tendrán la oportunidad de contribuir al proyecto ayudando a evaluar los resultados de nuestras campañas de nicho de mercado, que tendrán lugar a principios de 2023. Eche un vistazo a la página del evento Europeana Pro para obtener más información.
