Entrenando nuestro modelo de clasificación de imágenes

Publicado 2 de junio de 2021

Un modelo para la clasificación de una sola etiqueta

El conjunto de datos que recopilamos para nuestro piloto de clasificación de imágenes fue adecuado para entrenar un modelo de clasificación de etiqueta única, es decir, un modelo que genera una sola categoría por imagen. Las etiquetas o categorías del conjunto de datos de entrenamiento también se conocen como la «verdad fundamental», lo que significa que son las etiquetas verdaderas o correctas para las imágenes dadas.

Utilizamos un tipo de red neuronal convolucional como nuestro clasificador para las imágenes, que es un modelo matemático con una estructura en capas inspirada en el funcionamiento del cerebro. Una red neuronal convolucional es un modelo de aprendizaje profundo diseñado para extraer información relevante de imágenes, y son la opción habitual para aplicaciones de visión por computadora.

En nuestro caso, la entrada del modelo era una imagen, y la salida era una distribución de probabilidad sobre todas las categorías del vocabulario objetivo. Le dio a cada categoría un número entre 0 y 1 que a menudo se interpreta como una puntuación de confianza. Este modelo se entrenó luego mediante la predicción iterativa de imágenes del conjunto de datos y la corrección de las predicciones resultantes comparándolas con la verdad real del terreno.

Una vez que se entrenó el modelo, evaluamos su rendimiento probándolo en imágenes invisibles y comparando si la predicción realizada por el modelo correspondía al concepto representado en la imagen. También empleamos un algoritmo de IA explicable que nos ayudó a comprender la salida del modelo al visualizar las regiones de interés para cada una de las categorías de salida. Esto nos permitió comprender las áreas de la imagen que son más relevantes para cada categoría, lo que proporcionó pistas sobre el funcionamiento interno del modelo.

A continuación, puede ver varios ejemplos de predicciones sobre muestras obtenidas utilizando la API de búsqueda, junto con las puntuaciones de confianza y los mapas de explicabilidad. El modelo utiliza las siguientes imágenes: aanzicht, Beeldbank van de Rijksdienst voor het Cultureel Erfgoed, Países Bajos, G.Th. Delemarre, 1965-03, CC-BY-SA. Lerkärl, kärl, vessel@eng, Vasija, Världskulturmuseet, Suecia, CC-BY. Esimene rohelus, Eesti Sõjamuuseum - Kindral Laidoneri Muuseum, Estonia, Genin, CC0.

Nuestros aprendizajes

A partir de los resultados anteriores, podemos ver que el modelo fue capaz de capturar con éxito los conceptos más relevantes del vocabulario para las imágenes dadas. Si bien está lejos de ser perfecto, el modelo puede aprender de nuestras colecciones enriquecidas y se puede aplicar a nuevas imágenes para generar metadatos potencialmente útiles.

La principal limitación de nuestro enfoque es que los conceptos del vocabulario no son exclusivos, y esto no se alinea bien con una sola clase por imagen. Por ejemplo, una imagen puede ser una fotografía y contener tanto un edificio como una escultura, pero debido al enfoque de etiqueta única solo podemos entrenar y evaluar nuestro modelo para identificar uno de estos aspectos.

Esto nos da un modelo que a menudo produce una alta puntuación de confianza para solo una de las categorías, con la confianza para el resto de las categorías baja. Al establecer un umbral bajo para las puntuaciones de confianza de la salida, podemos obtener más de una etiqueta como salida. Sin embargo, este enfoque no es ideal ya que todos los puntajes de confianza deben sumar uno (como en cualquier distribución de probabilidad legal), lo que impide altos valores de confianza en el caso de un vocabulario con múltiples categorías.

Idealmente, nuestro modelo sería un clasificador multietiqueta, un modelo que está entrenado con más de una etiqueta por imagen y que es capaz de generar altas puntuaciones de confianza para varias categorías.

También vale la pena mencionar que nuestro conjunto de datos se ha reunido sin supervisión humana (no revisamos las imágenes obtenidas ni comprobamos si estaban o no alineadas con las categorías). Esto significa que la calidad del conjunto de datos dependerá de los metadatos asociados a los objetos del patrimonio cultural y de los enriquecimientos automáticos previos basados en metadatos. En la práctica, no todas las imágenes del conjunto de datos de entrenamiento estaban alineadas con las categorías correctas.

Próximos pasos

Actualmente estamos ensamblando un conjunto de datos de capacitación para la clasificación multietiqueta, y compartiremos nuestro trabajo y enfoque en una futura publicación de noticias Pro: ¡estén atentos! Mientras tanto, puede explorar nuestro repositorio Github para el piloto y este cuaderno Colab, donde puede realizar sus propias consultas a Europeana Search API y aplicar el modelo de clasificación de etiqueta única.

No dude en ponerse en contacto con nosotros en [email protected] si tiene alguna pregunta o idea!

Entrenando nuestro modelo de clasificación de imágenes

Compartir

Un modelo para la clasificación de una sola etiqueta

Nuestros aprendizajes

Próximos pasos

Descubre contenido relacionado