Habilitar la traducción automática para el enriquecimiento
Una herramienta API desarrollada por el socio del proyecto Pangeanic detecta el lenguaje utilizado en los metadatos de Europeana y permite su traducción automática. Esta herramienta, denominada Heritage Metadata Automatic Translation Service (HM ATS), forma parte de un conjunto de herramientas de enriquecimiento semántico desarrolladas por Europeana XX.
Para crear la herramienta, Pangeanic construyó 10 motores de traducción automática neuronal (traducción del italiano, alemán, checo, griego, francés, sueco, catalán, holandés, polaco y español al inglés). Utilizaron datos de formación de los propios repositorios de Pangeanic y datos abiertos en internet. Pangeanic también empleó traductores para traducir una cantidad limitada de registros de los repositorios de Europeana con el fin de tener datos de formación específicos de Europeana para varias lenguas.
La herramienta se utilizó para traducir y enriquecer aproximadamente dos millones y medio de registros durante el proyecto. Pangeanic extendió y afinó con éxito la herramienta para adaptarse a los requisitos de rendimiento de un volumen tan masivo de datos. Usa el código API tú mismo.
Para evaluar y validar la calidad de la traducción automática, los socios también han establecido un sistema de validación de la traducción (basado en LabelStudio). Los profesionales del patrimonio cultural y los hablantes nativos de idiomas relevantes han validado más de 2.700 traducciones utilizando este sistema. La retroalimentación fue abrumadoramente positiva, confirmando la alta calidad de la traducción automática neuronal y que funciona bien para el dominio del patrimonio cultural digital.
Las traducciones validadas se utilizarán para seguir mejorando los motores de traducción automática en el proyecto Europeana Translate, en el que también participa Pangeanic. El objetivo de este proyecto es ayudar a Europeana a avanzar en la aplicación de su estrategia multilingüe, proporcionando traducciones de metadatos que permitan una mejor búsqueda y visualización de sus colecciones en sus lenguas maternas y en las lenguas de los usuarios.
Enriquecimiento de conjuntos de datos
SAGE, una herramienta basada en la web para producir, enriquecer, publicar, acceder y gestionar conjuntos de datos RDF, fue desarrollada por la Universidad Técnica Nacional de Atenas (NTUA) para Europeana XX. RDF (resource description framework) es un lenguaje utilizado para representar el contenido de un conjunto de datos. Los datos RDF pueden importarse directamente o generarse a partir de diversas fuentes y formatos de datos, organizarse en conjuntos de datos y enriquecerse utilizando anotadores. Estos enriquecimientos se pueden validar manualmente. Todos los conjuntos de datos, incluidas las anotaciones, se pueden publicar en tiendas RDF, indexar y acceder a través de llamadas API.
Gracias a SAGE, partes seleccionadas de los conjuntos de datos publicados ahora también pueden ser anotadas y enriquecidas a través de servicios API externos, como herramientas que vinculan datos a Wikidata relevante, DBPedia, Geonames y otros recursos, o herramientas que detectan ocurrencias de términos de vocabulario en los datos. Una vez que los enriquecimientos se realizan en SAGE, se validan manualmente a través de un sistema que permite validaciones masivas utilizando agrupación de texto y clasificación de frecuencia de texto, asignación de tareas de validación a múltiples usuarios y monitoreo cercano del proceso de validación general.
La herramienta SAGE también se utilizó en el proyecto Pagode para enriquecer automáticamente más de 20.000 registros. También se utilizará en el proyecto CRAFTED para analizar campos de metadatos y texto extraído de herramientas de análisis de contenido de inteligencia artificial con el fin de identificar y eliminar la incertidumbre de entidades nombradas. El objetivo final es enriquecer más de 100.000 registros y permitir la validación y evaluación de usuarios de entidades extraídas automáticamente.
Descubre más
Puede explorar todas las herramientas desarrolladas en el marco del proyecto Europeana XX (y otros proyectos de servicios genéricos) en la página Servicios y herramientas de Europeana.
