Encuentros cercanos con la IA: una inmersión profunda en el análisis del contenido de la imagen

Publicado 20 de junio de 2024 por

Henk Vanstappen (Datable)

Marco Rendina (European Fashion Heritage Association)

Marco Rendina: Para iniciar la conversación, ¿puede decirnos exactamente qué es el análisis de contenido de imágenes?

Henk Vanstappen: El análisis de contenido de imágenes, también conocido como análisis visual, es el proceso de extraer información de imágenes digitales. Emplea sofisticadas técnicas y algoritmos para analizar diversos aspectos de una imagen, como objetos, patrones, colores, texturas y formas. Esta tecnología se está utilizando en numerosos dominios, desde el diagnóstico médico hasta la videovigilancia.

RM: ¿Cómo es esto relevante para el sector del patrimonio cultural?

HV: En el patrimonio cultural, a menudo encontramos vastas colecciones de imágenes digitales con metadatos mínimos sobre su contenido real. Imagine un extenso archivo fotográfico donde solo se graban la fecha y el fotógrafo. Para el usuario promedio, navegar y buscar a través de dicha colección sin información textual sería una tarea ardua. El análisis de imágenes puede automatizar la detección de objetos, clasificar imágenes en grupos significativos (por ejemplo, imágenes que contienen personas) y más, haciendo que estas colecciones sean más accesibles. Puedes encontrar algunos buenos ejemplos de lo que se puede lograr en otra serie de publicaciones de noticias en Europeana Pro.

RM: Entiendo que se ha desarrollado una herramienta de detección de objetos para el proyecto AI4Culture: ¿qué puede decirnos al respecto?

HV: Es una herramienta de detección de objetos y sujetos. La detección de objetos identifica objetos físicos dentro de una imagen, como una estación de tren o un vestido. La detección de sujetos determina el tema más amplio, como 'arquitectura', 'tráfico' o 'moda'. Esta herramienta está disponible en diferentes 'sabores' para atender a varios casos de uso.

RM: Me gusta esta idea de una herramienta digital con «sabores», que hace que suene muy accesible. ¿Cuáles son estos múltiples "sabores"?

HV: Queríamos proporcionar la herramienta más adecuada para diferentes escenarios. El «sabor» básico incluye una herramienta de detección de objetos sencilla y de alta velocidad que utiliza el modelo MobileNet-SSD v3. Es capaz de reconocer objetos comunes como automóviles, aviones o personas; por ejemplo, podría usarlo para filtrar colecciones de imágenes para detectar contenido sensible a la privacidad.

La segunda herramienta empaquetada en el servicio emplea un sofisticado modelo de IA generativa (Salesforce/ blip-vqa-base)que puede comprender y responder preguntas sobre el contenido de una imagen, similar a cómo funciona ChatGPT con texto. Aunque es más avanzado que la versión básica, no puede identificar la ubicación de un objeto dentro de la imagen.

La tercera opción del paquete aprovecha el servicio Visión de Google, que ofrece capacidades de detección aún mayores. Sin embargo, como servicio comercial, requiere una cuenta de usuario en Google Cloud, un servicio en la nube que ofrece detección de objetos, lo que lo hace más adecuado para uso avanzado.

RM: También hay una herramienta de detección de color disponible. ¿Qué hace que el análisis de color sea significativo?

HV: El color es un aspecto crucial de ciertas colecciones, como las relacionadas con el diseño y la moda. Sin embargo, definir los colores es un proceso altamente subjetivo. Mientras que el ojo humano puede discernir una pieza de joyería como oro o cobre, una computadora puede simplemente percibirla como amarilla. Además, para una computadora, los colores de una imagen de una oveja en un prado son simplemente "blanco" y "verde". Así que hicimos algoritmos que pueden aislar objetos del fondo e identificar con precisión sus colores.

RM: ¿Esta herramienta incorpora la detección de objetos también?

HV: Sí. Si bien la herramienta puede aislar objetos automáticamente, los usuarios también pueden ayudar especificando la región donde se encuentra un objeto. De esta manera, puede aprovechar la salida de la herramienta de detección de objetos para obtener los colores de varios objetos dentro de una sola imagen, si está presente.

RM: ¿Y la herramienta de detección de objetos también viene en diferentes sabores?

HV: De hecho. La primera versión cuenta los píxeles del objeto detectado, los agrupa en colores y devuelve la proporción de cada color como un porcentaje. La segunda versión utiliza el mismo modelo de IA generativa que la herramienta de detección de objetos, proporcionando una interpretación más humana de los colores. Sin embargo, no ofrece proporciones de color precisas, sino que devuelve un conjunto limitado de tres o cuatro colores dominantes por objeto.

RM: Eso es bastante completo. ¿Estas herramientas generan resultados solo en inglés?

HV: Para nada. Las herramientas también proporcionan enlaces a Wikidata, una amplia base de conocimientos que potencia Wikipedia (véase, por ejemplo, el identificador del concepto 'vestido'). Esto permite a los usuarios acceder a nombres de color y objetos en prácticamente cualquier idioma soportado por Wikidata, mejorando la accesibilidad de las herramientas en diversas comunidades lingüísticas.

RM: Con una tecnología tan avanzada, ¿existen preocupaciones éticas con respecto al futuro? ¿Podría el análisis de imágenes eventualmente reemplazar a los expertos humanos?

HV: Si bien la tecnología continúa evolucionando y se vuelve más sofisticada, es poco probable que reemplace por completo la experiencia humana en el corto plazo. Los algoritmos, aunque poderosos, no son infalibles, al igual que el análisis humano a veces puede ser subjetivo. Sin embargo, estas herramientas impulsadas por la IA ofrecen ventajas significativas: son notablemente rápidos, consistentes e inquebrantables en su enfoque en tareas repetitivas. En última instancia, sirven como complementos valiosos para los expertos humanos, permitiéndoles dedicar su tiempo a esfuerzos creativos más matizados mientras aprovechan la IA para el procesamiento de datos a gran escala.

RM: ¿Qué tan difícil es para los usuarios trabajar con estas herramientas?

HV: Para aquellos interesados en explorar las capacidades de las herramientas, hemos desarrollado una interfaz gráfica básica para la detección de color y la herramienta de detección de objetos, donde los usuarios pueden ingresar la URL de una imagen en línea y probar los diversos sabores y configuraciones. Esta herramienta basada en la web no requiere instalación en el equipo del usuario, aunque la opción de descargarla y ejecutarla localmente también está disponible. Sin embargo, para integrar estas herramientas en las bases de datos existentes y procesar grandes cantidades de imágenes, será necesario contar con cierta experiencia en programación. Para estos casos de uso avanzados, hemos proporcionado documentación completa en nuestra página de GitHub para guiar a los desarrolladores a través del proceso de integración sin problemas.

Descubre más

En septiembre de 2024, el proyecto AI4Culture pondrá en marcha una plataforma en la que se pondrán a disposición en línea herramientas abiertas, como las herramientas de detección presentadas anteriormente, junto con la documentación y los materiales de formación conexos. ¡Manténgase atento a la página del proyecto en Europeana Pro para obtener más detalles y esté atento a la cuenta del proyecto LinkedIn y X!

La herramienta de detección de objetos y sujetos también está integrada en la plataforma de agregación MINT y se ofrece como un servicio de valor agregado listo para usar para sus usuarios. La interfaz gráfica de usuario permite a los usuarios de MINT enriquecer sus metadatos con las anotaciones extraídas por la herramienta de análisis de imágenes con solo unos pocos clics. Si está interesado en aprovechar esta función MINT recién agregada, puede seguir este video tutorial.

Encuentros cercanos con la IA: una inmersión profunda en el análisis del contenido de la imagen

Compartir

Descubre más

Descubre contenido relacionado