Un modelo de clasificación multietiqueta
Como se exploró en publicaciones de noticias Pro anteriores, en la Fundación Europeana hemos estado ejecutando un piloto de clasificación de imágenes, formando un modelo de clasificación de imágenes de etiqueta única para enriquecer nuestras colecciones. El modelo que desarrollamos fue capaz de clasificar las imágenes en categorías a partir de nuestro vocabulario objetivo, pero solo identificó un aspecto (o «etiqueta») de cada imagen. Así que comenzamos a trabajar en la formación del modelo para clasificar una imagen con más de una etiqueta, de modo que conceptos como «fotografía» y «escultura» pudieran identificarse en la misma imagen.
Para entrenar este modelo de clasificación de imágenes multietiqueta, tuvimos que recopilar un conjunto de datos de entrenamiento que contenía imágenes con múltiples etiquetas en sus metadatos. Utilizamos la API de búsqueda de Europeana buscando objetos indexados con más de un concepto de nuestro vocabulario, lo que resultó en 9.000 objetos en total. Al igual que en nuestro anterior esfuerzo de clasificación de etiquetas únicas, no revisamos este conjunto de datos, por lo que la calidad de las etiquetas dependía de la calidad de los enriquecimientos anteriores.
En el caso de la clasificación multietiqueta, los metadatos correctos (o la verdad fundamental) contenían más de una etiqueta para cada imagen. Entrenamos una red neuronal convolucional para clasificar las imágenes y luego usamos el modelo resultante en objetos obtenidos de la API de búsqueda. Puede ver algunos de los ejemplos con sus predicciones, puntajes de confianza y mapas de interpretabilidad a continuación.

Nuestros aprendizajes
A partir de nuestros experimentos hemos llegado a la conclusión de que el modelo es capaz de identificar correctamente múltiples etiquetas relevantes para las imágenes dadas. El enfoque multietiqueta es más útil que el uso de etiquetas individuales, ya que puede aplicar varias etiquetas a cada imagen con alta confianza.
A pesar de los resultados interesantes, el rendimiento del modelo resultante está lejos de ser perfecto, y podemos atribuir esto a varios factores. El más importante es la calidad relativamente baja del conjunto de datos recopilados. Descubrimos que muchas de las imágenes recuperadas no tienen metadatos correctos.
Además, la mayoría de los datos utilizados para la formación fueron facilitados por el Norwegian DigitalMuseum. Esto significa que los datos de entrenamiento no reflejan toda la distribución de datos en Europeana, lo que hace que el modelo esté sesgado hacia los datos con los que se ha entrenado. Los sesgos de los datos de formación se traducirán en una falta de generalización para el resto de imágenes de Europeana. En términos simples, el modelo funcionará bien en imágenes similares a las contenidas en el conjunto de datos de entrenamiento, pero fallará si las imágenes son demasiado diferentes.
En general, nuestros datos de entrenamiento son lo suficientemente buenos como para que el modelo aprenda algunos patrones básicos. El modelo funcionó bien a pesar de la difícil configuración de usar datos con etiquetas incorrectas. Sin embargo, la calidad de los enriquecimientos anteriores no es adecuada para usarlos como datos de entrenamiento para construir un modelo que enriquezca nuestras colecciones. Una solución a esto es crear un conjunto de datos de capacitación de mayor calidad, para garantizar que nuestro modelo se presente con las etiquetas correctas.
Trabajos futuros: crowdsourcing
Después de entrenar y evaluar el modelo de clasificación multietiqueta, hemos llegado a la conclusión de que asignar múltiples etiquetas a las imágenes de nuestra colección es más adecuado que enriquecerlas con una sola etiqueta.
Estamos considerando ampliar el vocabulario mediante la inclusión de otros términos relevantes para el patrimonio cultural. Más importante aún, estamos planeando revisar y ampliar el conjunto de datos de entrenamiento, con el objetivo de identificar y corregir posibles sesgos y errores. Nos gustaría asegurarnos de que nuestro modelo se presente con las etiquetas correctas, que se espera que funcione significativamente mejor que cuando se entrena con etiquetas "ruidosas". Hemos lanzado una campaña de crowdsourcing para construir un conjunto de datos anotados de alta calidad con Zooniverse, y damos la bienvenida a las contribuciones de nuestra comunidad.
Puedes seguir nuestro trabajo en este repositorio de Github. También le invitamos a experimentar con este cuaderno Colab, donde puede realizar sus propias consultas a la API de búsqueda de Europeana y aplicar el modelo de clasificación multietiqueta. No dude en ponerse en contacto con nosotros en [email protected] si tiene alguna pregunta o idea!
