Europeana Traducir
El proyecto eTranslation CEF Telecom Europeana Translate tiene como objetivo reforzar las conexiones entre la infraestructura de eTranslation y el espacio común europeo de datos para el patrimonio cultural, desplegado por la Iniciativa Europeana, en beneficio de ambos. Por un lado, el proyecto tiene como objetivo mejorar la usabilidad de los recursos del patrimonio cultural mediante el enriquecimiento de los conjuntos de datos del patrimonio cultural con metadatos multilingües. Por otro lado, mejora los recursos lingüísticos puestos a disposición abiertamente a través de la Coordinación Europea de Recursos Lingüísticos con metadatos de millones de objetos del patrimonio cultural, que fueron cuidadosamente seleccionados, limpiados y normalizados para que puedan ser objeto de formación.
Para ello, Europeana Translate ha desarrollado e implementado herramientas de traducción automática adaptadas a las necesidades del sector del patrimonio cultural. Las herramientas se están aplicando para traducir los metadatos de más de 25 millones de registros actualmente disponibles a través de la infraestructura de Europeana de veintidós lenguas oficiales de la UE al inglés, mejorando la experiencia multilingüe proporcionada a sus usuarios.
A lo largo del proyecto, los socios formaron un conjunto de motores de traducción proporcionados por el socio Pangeanic con una selección de metadatos seleccionados de la infraestructura de Europeana, incluidos datos bilingües y monolingües, así como vocabularios multilingües. Los datos adicionales seleccionados del sitio web de la colección OPUS también se consideraron para las lenguas que no estaban suficientemente representadas. Se realizaron varios experimentos para decidir la mejor combinación de datos de entrenamiento y la configuración de los motores para cada idioma. Al dividir los datos entre conjuntos de entrenamiento y prueba, se realizó una evaluación automática basada en métricas estándar (como BLEU y TER) para todos los pares de idiomas. Los resultados demuestran una mejora considerable en comparación con los modelos genéricos Pangeanic (antes de la capacitación en el dominio) y el eTranslation DSI para la mayoría de los idiomas.
Evaluación de la traducción automática por expertos humanos
Las traducciones automáticas también fueron objeto de una amplia evaluación por parte de lingüistas y expertos en patrimonio cultural. Se pidió a los evaluadores que calificaran las traducciones automáticas al inglés en una escala de 0 a 100, teniendo en cuenta aspectos como la fluidez (corrección gramatical), la precisión (significado general) y la adecuación (uso adecuado de la terminología). También se les pidió que proporcionaran información adicional, incluida la notificación de errores importantes y recurrentes. Se organizaron tres campañas de crowdsourcing a través de la plataforma CrowdHeritage para involucrar a los miembros del sector del patrimonio cultural. En total, participaron 44 lingüistas expertos y 29 profesionales del patrimonio cultural, que obtuvieron calificaciones bastante altas (por encima del 80%) para la mayoría de las 22 lenguas.
Los resultados obtenidos por la evaluación humana nos proporcionaron información sobre el comportamiento de los motores de traducción automática para diferentes idiomas. Un análisis estadístico en profundidad de las calificaciones asignadas por los humanos, en correlación con los puntajes de confianza automáticos calculados por los motores de traducción automática, nos permitió determinar umbrales de calidad apropiados para publicar traducciones de varios idiomas a la infraestructura de Europeana.
Beneficios para los usuarios y las instituciones de patrimonio cultural
Los motores de traducción están siendo utilizados por la infraestructura de Europeana para producir, indexar, compartir y mostrar traducciones automáticas al inglés de metadatos, lo que permitirá a las personas descubrir, analizar y reutilizar mejor el material.
El impacto positivo que está teniendo este trabajo ha sido confirmado por una encuesta de evaluación de impacto cumplimentada por 27 lingüistas y 18 expertos en patrimonio cultural. Cuando se les preguntó sobre el valor añadido que las traducciones automáticas al inglés pueden aportar a la búsqueda y exhibición de elementos del patrimonio cultural en el sitio web de Europeana, ambas comunidades lo consideraron importante. También informaron que apreciaban el aumento esperado de la cantidad de resultados de búsqueda, que incluiría elementos del patrimonio cultural que actualmente no se devuelven al buscar en inglés: El 83,4% y el 62,9% de los expertos en patrimonio cultural y lingüistas, respectivamente, consideraron valiosa esta mejora.
Además, los motores de traducción establecidos por el proyecto pueden ser útiles para los proveedores de datos que deseen traducir los metadatos de sus colecciones al inglés, mejorando la accesibilidad de sus colecciones. Los usuarios de la plataforma de agregación MINT pueden hacer uso directo de la interconexión API existente con los motores, mientras que las instituciones de patrimonio cultural con experiencia técnica pueden aprovechar los motores de traducción automática fácilmente desplegables disponibles abiertamente en el repositorio ELG. Todos los expertos en patrimonio cultural que participaron en la encuesta declararon que considerarían utilizar las herramientas de Europeana Translate para enriquecer las colecciones de su organización con traducciones automáticas para mejorar la descubribilidad.
Europeana Translate Event: cómo la traducción automática y el acceso multilingüe impactan el patrimonio cultural
¿Te interesa saber más sobre el proyecto Europeana Translate, su metodología y resultados? ¿También le gustaría profundizar en su conocimiento de las tecnologías de traducción automática de última generación y cómo se puede aplicar en el sector del patrimonio cultural?
A continuación, únase a nosotros en el Europeana Translate Event - How machine translation & multilingüe access impacts cultural heritage (Evento de traducción de Europeana: cómo la traducción automática y el acceso multilingüe afectan al patrimonio cultural). Este es un evento en línea que tendrá lugar el 13 de abril de 2023, de 14:00 a 17:00 CEST. Escuchará a los socios del proyecto explicar en detalle la metodología y los resultados obtenidos en estos dos años de trabajo. También se debatirán proyectos similares, siempre teniendo en cuenta de manera crítica la importancia de las traducciones automatizadas de datos/metadatos del patrimonio cultural con reflexiones sobre los pasos futuros, la usabilidad y los desafíos de la tecnología de IA para el sector del patrimonio cultural.
