El EU Datathon es un concurso anual que ofrece «una oportunidad para que los entusiastas de los datos abiertos y los desarrolladores de aplicaciones de todo el mundo demuestren el potencial de los datos abiertos, obtengan visibilidad internacional por sus ideas innovadoras y compitan por su participación en el fondo total de premios de 200 000 EUR y el Premio Public Choice». Se les invita a hacer uso de data.europa.eu, el portal oficial de datos europeos, gestionado por la Oficina de Publicaciones de la Unión Europea.
Con el conjunto de datos de Europeana.eu publicado en data.europa.eu a principios de este año, la agregación de metadatos de las aproximadamente 4.000 instituciones de patrimonio cultural que proporcionan contenido a Europeana, las propuestas y aplicaciones diseñadas para el concurso también podrían beneficiarse de él para sus entradas. Como socio oficial del concurso, Europeana invitó a investigadores, profesores universitarios y estudiantes de Ciencias Sociales y Humanidades, e Informática y Ciencias de la Información a participar en el Datathon de la UE.
Después de dos rondas de preselección de 156 participantes de 38 países, un equipo que está desarrollando una aplicación basada en el conjunto de datos Europeana.eu fue uno de los 12 finalistas y recibió un premio de 7.000 euros en el Desafío número 4: «Una Europa Adaptada a la Era Digital» en la ceremonia de entrega de premios que tuvo lugar en Bruselas el 20 de octubre de 2022. El equipo está compuesto por la profesora Johanna Monti; investigadora, Maria Pia di Buono; y dos estudiantes de doctorado, Gennaro Nolano y Giulia Speranza. Johanna Monti nos habla de la experiencia.
¿Puedes contarnos sobre la app que desarrollaste y el proceso de creación de la misma?
Desarrollamos Maggie, un chatbot en tiempo real que funciona como asistente virtual para ayudar a las personas a acceder y descubrir contenido cultural europeo. Las personas pueden interactuar con Maggie a través de preguntas sobre el lenguaje natural y preguntar sobre el patrimonio cultural europeo.
La idea principal detrás de Maggie es explotar las metodologías de Inteligencia Artificial (IA) y Procesamiento del Lenguaje Natural (PNL) para desarrollar una aplicación centrada en el usuario que facilite el acceso y el descubrimiento de contenido cultural multilingüe. La audiencia prevista de Maggie es muy diversa; la aplicación adapta el contenido a los conocimientos e intereses de los usuarios para satisfacer diferentes necesidades de información, desde estudiantes hasta expertos.
Maggie es el resultado de más de una década de actividades de investigación que comenzaron en 2012 con nuestros primeros experimentos en la recuperación de información interlingüística sobre el patrimonio cultural. Después de eso, varios hitos marcaron nuestro camino hacia Maggie, incluida la creación del grupo de investigación UNIOR NLP de la Universidad de Nápoles L'Orientale en 2016, y varios proyectos desde 2019 hasta 2021, incluido el Proyecto SMACH (Acceso multilingüe semántico al patrimonio cultural), el proyecto ArchaeoTerm que ofrece un recurso de términos arqueológicos disponibles en el marco del proyecto YourTerm CULT y el proyecto NEAT (Entidades Nombradas en Textos Arqueológicos).
¿Por qué decidió utilizar el conjunto de datos Europeana.eu?
Nuestro grupo de investigación siempre se ha comprometido a hacer que los contenidos culturales sean fácilmente accesibles para todos, mediante el desarrollo de sistemas y aplicaciones para el patrimonio cultural. En este sentido, ya hemos aprovechado los datos abiertos europeos (en forma de datos del sitio web de Europeana) en varias obras, todas destinadas a mejorar el estado actual de las tareas de procesamiento del lenguaje natural para un mejor acceso a los contenidos del patrimonio cultural.
En todos estos casos, el núcleo de los datos que utilizamos estaba representado por datos abiertos extraídos de la API de búsqueda de Europeana, lo que facilita el acceso y la reutilización de los datos agregados, garantizando al mismo tiempo la alta calidad de los datos y su multilingüismo. Si bien en experimentos anteriores no se utilizó gran parte de la información descrita por el Modelo de Datos de Europeana (como datos sobre localización, autores y temas), para desarrollar Maggie, explotamos plenamente la rica fuente de información que ofrece Europeana, ya que nuestro objetivo era desarrollar una tarea más específica de Procesamiento del Lenguaje Natural.

El Datathon de la UE fomenta el uso de conjuntos de datos abiertos. ¿Por qué es importante la apertura de datos para su investigación y aplicación?
Los datos abiertos garantizan la reproducibilidad y la transparencia en la investigación. La disponibilidad de estos datos representa una forma de fomentar el intercambio de conocimientos y la cooperación en las comunidades científicas. La mayoría de nuestros esfuerzos de investigación aprovechan los datos abiertos de varias fuentes. Este es el caso de nuestra app Maggie. Sin los datos abiertos de Europeana y data.europa.eu, no podríamos haber desarrollado Maggie. Extraemos información sobre cada obra de arte disponible a través de Europeana, como su autor, fecha de creación, etc., y agregamos la información sobre su geolocalización del GeoDataset de data.europa.eu.
¿Por qué decidiste participar en el concurso EU Datathon?
Fue un gran desafío para nosotros, ya que intentamos reunir todos nuestros esfuerzos anteriores en una sola aplicación que pudiera ayudar a las personas a acceder fácilmente a los contenidos culturales europeos en la era digital actual. Sin embargo, también representó una oportunidad para salir de la investigación académica pura y comprometerse en una prueba de concepto que va más allá de la etapa de prototipo, hacia algo que realmente podría usarse en una situación del mundo real; todo ello haciendo uso de metodologías, recursos y herramientas de vanguardia en el procesamiento del lenguaje natural y la inteligencia artificial.
¿Qué consejo le darías a otros que participen en una competencia como esta?
Unirse a concursos que promuevan el uso de datos abiertos es una forma de apoyar la implementación, difusión y adopción de dichos datos. También contribuye a la mejora y el mantenimiento de conjuntos de datos que, debido a la cantidad de datos y fuentes, son difíciles de administrar, limpiar y probar. Los resultados de este tipo de concursos tienen un impacto real en la sociedad, directamente relacionado con la posibilidad de mejorar la calidad de vida de los ciudadanos, haciendo accesible y fácilmente accesible la información y el conocimiento sobre la sociedad en la que viven. Nuestro consejo a los investigadores es salir de su zona de confort, y combinar el rigor de la investigación con la creatividad del proceso de diseño, pensando en el impacto beneficioso en la sociedad como objetivo final.
