Encuentros cercanos con la IA: una entrevista sobre enriquecimiento semántico automático

Publicado 4 de julio de 2024 por

Eirini Kaldeli (National Technical University of Athens)

Marco Rendina (European Fashion Heritage Association)

Alexandros Chortaras (National Technical University of Athens)

Marco Rendina: Empecemos por lo básico. ¿Qué es el enriquecimiento semántico?

Eirini Kaldeli: El enriquecimiento semántico es el proceso de agregar nueva semántica a los datos no estructurados, como el texto libre, para que las máquinas puedan darle sentido y construir conexiones con él. En el caso de los metadatos textuales que describen elementos del patrimonio cultural, estos pueden analizarse y aumentarse con términos controlados de conjuntos de datos o vocabularios Linked Open, como Wikidata o el Getty Art & Architecture Thesaurus (AAT). Estos términos se denominan comúnmente anotaciones y pueden representar conceptos y atributos (como «Costume» o «Renaissance»), personas, ubicaciones, organizaciones o períodos cronológicos. Por ejemplo, las cuerdas «Leonardo da Vinci» y «da Vinci, Leonardo» pueden vincularse al elemento Wikidata que representa el polímata renacentista italiano.

RM: ¿Por qué es importante enriquecer los metadatos con términos de conjuntos de datos o vocabularios de Linked Open?

EK: El enriquecimiento semántico añade significado y contexto a las colecciones digitales y las hace más fáciles de descubrir. Dada su importancia, ha sido una de las principales preocupaciones y el centro de los esfuerzos de la Iniciativa Europeana, así como de los agregadores y proveedores de datos individuales.

En primer lugar, los datos vinculados hacen que los metadatos textuales sean inequívocos. Por ejemplo, la cadena «Leonardo da Vinci» también puede referirse, según el contexto, al aeropuerto italiano o a un acorazado con el mismo nombre. Cada uno de estos conceptos se representa a través de un URI dedicado (Unique Reference Identifier) de Wikidata, y, por lo tanto, al vincular el texto con el URI correcto, queda claro a qué se refiere el texto.

En segundo lugar, los datos vinculados nos permiten recuperar información adicional sobre una determinada entidad, construir conexiones entre diferentes recursos y contextualizarlos. Por ejemplo, nos permite vincular elementos etiquetados con el término «anillo» con el concepto más amplio de «joyería» e interconectarlos con elementos enriquecidos con el término «brazalet», que también es un ejemplo de «joyería».

Finalmente, los datos vinculados generalmente vienen con traducciones, lo que mejora las capacidades de búsqueda multilingüe. Esto permite a quienes utilizan repositorios en línea navegar y buscar colecciones en la denominada «capa semántica»: alguien que busque «κόσμημα» (la palabra griega para «joyería») podrá descubrir artículos descritos como anillos y pulseras.

RM: Alexandros, enriquecer los metadatos requiere esfuerzo y recursos de los que a menudo carecen las instituciones de patrimonio cultural. ¿Cómo pueden las tecnologías digitales ayudar a abordar este desafío?

Alexandros Chortaras: Las instituciones de patrimonio cultural pueden utilizar tecnologías de vanguardia para automatizar el proceso manual, lento y a menudo mundano de enriquecimiento de metadatos. Las herramientas de procesamiento del lenguaje natural se pueden utilizar para analizar metadatos textuales y detectar y clasificar entidades nombradas, como personas o nombres de ubicaciones, mencionadas en texto no estructurado. Los enfoques de aprendizaje automático se utilizan ampliamente para la tarea de desambiguación de entidades nombradas, que es responsable de decidir si, por ejemplo, la referencia a «Leonardo da Vinci» en el texto se refiere al polímata italiano o al acorazado. Dependiendo de las características del texto, como su longitud y lenguaje, el vocabulario al que deseamos vincularlo y el tipo de entidades que deseamos detectar, uno tiene que combinar las herramientas que son más apropiadas para la tarea específica. Por ejemplo, a partir de nuestra experiencia con proyectos anteriores como CRAFTED, para ciertas tareas con un contexto restringido bien definido, incluso un enfoque simple de lematización y coincidencia de cadenas puede ser más apropiado que los algoritmos complejos basados en ML.

RM: Pero, ¿puedo confiar plenamente en los resultados de un algoritmo automático? ¿Y si comete errores?

CA: De hecho, los algoritmos automáticos que analizan el texto libre para el reconocimiento y la desambiguación de entidades nombradas cometen errores. La precisión depende de la tarea en cuestión y del algoritmo aplicado. Por ejemplo, las descripciones textuales cortas que son comunes en los metadatos carecen de contexto y, por lo tanto, los algoritmos de ML entrenados en artículos de Wikipedia pueden resultar en coincidencias incorrectas.

Además, aunque los enlaces detectados automáticamente sean correctos, pueden considerarse indeseables en un contexto determinado. Por ejemplo, vincular registros de metadatos con términos que representan colores puede ser importante para una colección de moda, pero puede ser indeseable para describir un manuscrito que menciona un determinado color. Por lo tanto, la inspección humana y la validación de anotaciones automáticas son indispensables. Sin embargo, dado que a menudo hay miles de anotaciones automáticas, la validación manual puede ser un proceso muy intensivo en recursos. A nivel práctico, los seres humanos deben revisar una muestra seleccionada de las anotaciones y, dependiendo de los resultados y el objetivo, decidir sobre los criterios de filtrado adecuados.

RM: Una última pregunta para Eirini. Hay muchos algoritmos y bibliotecas por ahí, pero parece que se requiere un conocimiento técnico considerable para configurarlos. ¿Cómo ayuda AI4Culture a las instituciones de patrimonio cultural a aprovechar esas tecnologías?

ΕΚ: En el contexto del proyecto AI4Culture, estamos trabajando en una plataforma, llamada SAGE, desarrollada por la Universidad Técnica Nacional de Atenas. SAGE facilita el enriquecimiento semántico de los metadatos del patrimonio cultural al ofrecer un conjunto de anotadores establecidos (plantillas de enriquecimiento) configurados para satisfacer las necesidades del sector. La plataforma admite todo el flujo de trabajo de enriquecimiento, desde la importación de datos y la producción automática de anotaciones semánticas hasta la validación humana y la publicación de datos en el formato esperado por Europeana. La herramienta se ha utilizado con éxito para enriquecer los metadatos del patrimonio cultural en varias aplicaciones (incluso a través de los proyectos CRAFTED y Europeana XX). En el contexto de AI4Culture, se ha ampliado para ocultar la complejidad técnica de los algoritmos automáticos de enriquecimiento semántico y apoyar la interoperabilidad sin fisuras con el espacio común europeo de datos para el patrimonio cultural. A tal fin, la plataforma admite formatos pertinentes para los metadatos del patrimonio cultural, como EDM (Europeana Data Model) y facilita la importación directa de metadatos de fuentes relacionadas con el patrimonio cultural, como Europeana.eu o la herramienta MINT utilizada por varios agregadores de Europeana.

Por ahora, las personas interesadas pueden probar SAGE aquí. El código fuente está disponible en GitHub (frontend, backend). Puedes aprender a usar SAGE siguiendo una serie de tutoriales en video y leyendo las instrucciones del Wiki

Descubre más

En septiembre de 2024, el proyecto AI4Culture pondrá en marcha una plataforma en la que las herramientas abiertas, como la herramienta SAGE para el enriquecimiento semántico presentada anteriormente, estarán disponibles en línea, junto con la documentación y los materiales de formación conexos. ¡Manténgase atento a la página del proyecto en Europeana Pro para obtener más detalles y esté atento a la cuenta del proyecto LinkedIn y X!