Le Datathon de l’UE est un concours annuel qui offre «une chance aux amateurs de données ouvertes et aux développeurs d’applications du monde entier de démontrer le potentiel des données ouvertes, d’obtenir une visibilité internationale pour leurs idées innovantes et de concourir pour leur part du prix total de 200 000 EUR et du prix du public». Ils sont invités à utiliser data.europa.eu, le portail officiel des données européennes, géré par l’Office des publications de l’Union européenne.
Avec la publication de l’ensemble de données Europeana.eu sur data.europa.eu au début de l’année, l’agrégation des métadonnées des quelque 4 000 institutions du patrimoine culturel qui fournissent du contenu à Europeana, les propositions et les applications conçues pour le concours pourraient également en bénéficier pour leurs contributions. En tant que partenaire officiel du concours, Europeana a invité des chercheurs, des professeurs d’université et des étudiants en sciences sociales et humaines, ainsi qu’en informatique et en sciences de l’information, à participer au Datathon de l’UE.
Après deux tours de présélection de 156 candidatures de 38 pays, une équipe qui développe une application basée sur l'ensemble de données Europeana.eu a été l'une des 12 finalistes et a reçu un prix de 7 000 euros dans le cadre du défi numéro 4: «Une Europe adaptée à l’ère du numérique» lors de la cérémonie de remise des prix qui s’est tenue à Bruxelles le 20 octobre 2022. L'équipe est composée de la professeure Johanna Monti; chercheuse, Maria Pia di Buono; et deux doctorants, Gennaro Nolano et Giulia Speranza. Johanna Monti nous parle de l'expérience.
Pouvez-vous nous parler de l'application que vous avez développée et du processus de création?
Nous avons développé Maggie, un chatbot en temps réel qui fonctionne comme un assistant virtuel pour aider les gens à accéder et à découvrir du contenu culturel européen. Les gens peuvent interagir avec Maggie à travers des questions en langage naturel et poser des questions sur le patrimoine culturel européen.
L'idée principale derrière Maggie est d'exploiter les méthodologies d'intelligence artificielle (IA) et de traitement du langage naturel (NLP) pour développer une application centrée sur l'utilisateur qui facilite l'accès et la découverte de contenus culturels multilingues. Le public visé par Maggie est très diversifié; l’application adapte le contenu aux connaissances et aux intérêts des utilisateurs afin de répondre aux différents besoins d’information, des étudiants aux experts.
Maggie est le résultat de plus d'une décennie d'activités de recherche qui ont débuté en 2012 avec nos toutes premières expériences de recherche d'informations interculturelles sur le patrimoine culturel. Après cela, plusieurs jalons ont marqué notre chemin vers Maggie, notamment la création du groupe de recherche UNIOR NLP de l'Université de Naples L'Orientale en 2016, et plusieurs projets de 2019 à 2021, dont le projet SMACH (Sémantic Multilingual Access to Cultural Heritage), le projet ArchaeoTerm qui offre une ressource de termes archéologiques disponibles dans le cadre du projet YourTerm CULT et le projet NEAT (Named Entities in Archaeological Texts).
Pourquoi avez-vous décidé d’utiliser l’ensemble de données Europeana.eu?
Notre groupe de recherche s'est toujours engagé à rendre le contenu culturel facilement accessible à tous, en développant des systèmes et des applications pour le patrimoine culturel. En ce sens, nous avons déjà exploité les données ouvertes européennes (sous la forme de données provenant du site web Europeana) dans plusieurs travaux, tous visant à améliorer les tâches actuelles de traitement du langage naturel pour un meilleur accès au contenu du patrimoine culturel.
Dans tous ces cas, le cœur des données que nous avons utilisées était représenté par des données ouvertes extraites de l’API Europeana Search, ce qui facilite l’accès aux données agrégées et leur réutilisation, tout en garantissant la haute qualité des données et leur multilinguité. Alors que dans les expériences précédentes, une grande partie des informations décrites par le modèle de données Europeana (telles que les données sur la localisation, les auteurs et les thèmes) n'a pas été utilisée, pour développer Maggie, nous exploitons pleinement la riche source d'informations offerte par Europeana, car nous visions à développer une tâche de traitement du langage naturel plus spécifique.

Le Datathon de l'UE encourage l'utilisation d'ensembles de données ouvertes. Pourquoi l'ouverture des données est-elle importante pour votre recherche et votre application?
Les données ouvertes garantissent la reproductibilité et la transparence de la recherche. La disponibilité de ces données constitue un moyen d'encourager le partage des connaissances et la coopération au sein des communautés scientifiques. La plupart de nos efforts de recherche tirent parti des données ouvertes provenant de plusieurs sources. C'est le cas de notre application Maggie. Sans les données ouvertes d’Europeana et data.europa.eu, nous n’aurions pas pu développer Maggie. Nous extrayons des informations sur chaque œuvre mise à disposition via Europeana, telles que son auteur, sa date de création, etc., et nous agrégeons les informations sur sa géolocalisation à partir du GeoDataset de data.europa.eu.
Pourquoi avez-vous décidé de participer au concours Datathon de l’UE?
Ce fut un grand défi pour nous, car nous avons essayé de rassembler tous nos efforts antérieurs dans une seule application qui pourrait aider les citoyens à accéder facilement aux contenus culturels européens à l’ère numérique d’aujourd’hui. Cependant, cela a également été l'occasion de sortir de la recherche académique pure et de s'engager dans une preuve de concept qui va au-delà de l'étape du prototype, vers quelque chose qui pourrait effectivement être utilisé dans une situation réelle; tout en utilisant des méthodologies, des ressources et des outils de pointe en matière de traitement du langage naturel et d’intelligence artificielle.
Quels conseils donneriez-vous aux autres participants à un concours comme celui-ci?
Participer à des concours qui promeuvent l'utilisation des données ouvertes est un moyen de soutenir la mise en œuvre, la diffusion et l'adoption de ces données. Il contribue également à l'amélioration et à la maintenance des ensembles de données qui, en raison de la quantité de données et de sources, sont difficiles à gérer, à nettoyer et à tester. Les résultats de ces types de concours ont un impact réel sur la société, directement lié à la possibilité d'améliorer la qualité de vie des citoyens, en rendant les informations et les connaissances sur la société dans laquelle ils vivent accessibles et facilement accessibles. Notre conseil aux chercheurs est de sortir de leur zone de confort, et de combiner la rigueur de la recherche avec la créativité du processus de conception, en pensant à l'impact bénéfique sur la société comme objectif final.
