El enriquecimiento desempeña un papel fundamental en las actividades de Europeana. En nuestro contexto, el enriquecimiento puede definirse como la generación de metadatos a partir de los datos proporcionados por nuestros socios, agregando un valor adicional a los datos que recibimos. Utilizamos la combinación de metadatos originales y enriquecidos para indexar nuestros registros, y esto nos permite crear funcionalidades que permiten a las personas buscar y navegar por nuestras colecciones y recibir recomendaciones. Lograr el enriquecimiento automático utilizando algoritmos de aprendizaje automático es uno de los objetivos de la Estrategia Europeana 2020-2025, que pone en marcha proyectos como Saint George on a Bike.
El equipo de I+D de Europeana está explorando cómo las técnicas de visión por ordenador (sistemas que pueden dar sentido a los datos visuales) pueden mejorar el enriquecimiento que Europeana lleva a cabo. Decidimos iniciar un piloto sobre clasificación de imágenes, donde construimos un modelo que es capaz de clasificar imágenes de objetos de patrimonio cultural digitalizados en un conjunto de categorías predefinidas. Creemos que un sistema entrenado con las categorías seleccionadas resultaría útil para enriquecer nuestras colecciones.
Las técnicas de aprendizaje profundo, basadas en un cierto tipo de modelo matemático llamado redes neuronales, son el método de elección para este tipo de problema. Para entrenar una red neuronal, necesitamos obtener un conjunto de datos de entrenamiento que contenga una gran cantidad de imágenes ya clasificadas en categorías seleccionadas. En términos simples: Si mostramos un modelo de computadora imágenes de pinturas y le decimos al modelo que todas estas imágenes son pinturas, entrenamos ese modelo para reconocer si las imágenes que nunca ha visto son una pintura o no.
Los primeros pasos necesarios para construir el modelo de clasificación de imágenes fueron seleccionar un vocabulario objetivo y recopilar un conjunto de datos de formación utilizando la API de búsqueda de Europeana; explorar cómo lo hicimos a continuación.
Definición de un vocabulario para la clasificación
Los vocabularios controlados son conjuntos de conceptos predefinidos e identificados de manera única, que pueden usarse para indexar datos y hacerlos interoperables. El uso de vocabularios en la recuperación de información es una forma conveniente de organizar y referenciar el conocimiento.
En Europeana, utilizamos conceptos de vocabularios (identificados por Uniform Resource Identifiers, URI) como parte de los metadatos para indexar objetos del patrimonio cultural. Para este proyecto, nos centramos en una selección de conceptos de la Europeana Entity Collection, que tienen equivalencias con conceptos del Getty Art and Architecture Thesaurus (AAT). Este vocabulario se recopiló originalmente para organizar la obtención de contenido para nuestras colecciones temáticas. Incluimos 20 categorías como fotografías, pinturas, esculturas, ropa y joyas.
Acceso a los datos mediante la API de búsqueda de Europeana
Una vez que teníamos nuestro vocabulario, queríamos acceder a imágenes pertenecientes a las diferentes categorías para entrenar a nuestro modelo. Lo hicimos a través de Europeana Search API, una de las muchas interfaces que nos permiten recuperar objetos del patrimonio cultural exhibidos en europeana.eu. Dada una consulta y un conjunto de parámetros, la API de búsqueda devolverá una respuesta legible por máquina que contiene los metadatos de los objetos resultantes. La respuesta API sirve a los datos siguiendo el modelo de datos de Europeana.
En nuestro entorno, consideramos que solo había una categoría posible para cada imagen. Esto nos permitió reunir un conjunto de datos anotados consultando la API de búsqueda de imágenes correspondientes a los diferentes conceptos de nuestro vocabulario, y utilizando este concepto como etiqueta. De esta manera montamos el conjunto de datos automáticamente y no fue necesaria ninguna anotación manual.
Dado que queríamos que nuestro conjunto de datos siguiera los principios FAIR (encontrables, accesibles, interoperables y reutilizables), identificamos de manera única tanto los conceptos como los objetos del patrimonio cultural recuperados, y solo utilizamos contenido con licencia abierta. Los metadatos servidos por la API de búsqueda están bajo una licencia abierta, mientras que el contenido de los objetos del patrimonio cultural podría estar sujeto a derechos de autor. Para este piloto solo consideramos las imágenes libres de derechos de autor al establecer el parámetro de reutilización como abierto.
En nuestro caso, queríamos recuperar objetos indexados con los diferentes conceptos del vocabulario. En lugar de usar la versión legible por humanos de los conceptos, realizamos una consulta para el concepto URI directamente utilizando el parámetro skos_concept (uno de los parámetros de búsqueda de la API).
Estábamos interesados en realizar un seguimiento de los objetos utilizados para ensamblar nuestro conjunto de datos. Para cada objeto recuperado almacenamos información relevante en un archivo CSV. Las imágenes eventualmente necesitarán ser descargadas y almacenadas en disco para entrenar el modelo de clasificación de imágenes.
Descubre más
El conjunto de datos de entrenamiento de imágenes ahora se puede utilizar para construir un modelo de clasificación de imágenes que generará uno de los conceptos del vocabulario dado a una imagen de entrada. Estamos planeando continuar nuestro trabajo evaluando si este conjunto de datos contiene suficiente información para entrenar un modelo de clasificación de imágenes, y evaluando si el modelo resultante es adecuado para el enriquecimiento automático. ¡Compartiremos actualizaciones a través de las noticias de Europeana Pro!
Esperamos que esta publicación anime a los ingenieros e investigadores interesados en experimentar con el patrimonio cultural a utilizar nuestra API de búsqueda para ensamblar conjuntos de datos para el aprendizaje automático y, en particular, a utilizar nuestras colecciones para capacitar y aplicar algoritmos de visión por computadora. No dude en consultar el repositorio de Github, donde puede encontrar los vocabularios utilizados, los conjuntos de datos recopilados y el código para recopilar el conjunto de datos y entrenar un modelo de clasificación de imágenes. ¡No olvide ponerse en contacto con nosotros en [email protected] si tiene alguna pregunta, idea o experiencia que compartir!
Si está interesado en obtener más información sobre la IA y el patrimonio cultural digital, explore nuestro tema de IA en Europeana Pro.
