Rencontres rapprochées avec l'IA: un entretien sur l'enrichissement sémantique automatique

Publié 4 juillet 2024 par

Eirini Kaldeli (National Technical University of Athens)

Marco Rendina (European Fashion Heritage Association)

Alexandros Chortaras (National Technical University of Athens)

Marco Rendina: Commençons par les bases. Qu'est-ce que l'enrichissement sémantique?

Eirini Kaldeli: L'enrichissement sémantique est le processus d'ajout d'une nouvelle sémantique aux données non structurées, telles que le texte libre, afin que les machines puissent en donner un sens et y établir des connexions. Dans le cas des métadonnées textuelles qui décrivent des éléments du patrimoine culturel, celles-ci peuvent être analysées et complétées par des termes contrôlés provenant d'ensembles de données ou de vocabulaires Linked Open, tels que Wikidata ou le Getty Art & Architecture Thesaurus (AAT). Ces termes sont communément appelés annotations et peuvent représenter des concepts et des attributs (tels que «Costume» ou «Renaissance»), des personnes, des lieux, des organisations ou des périodes chronologiques. Par exemple, les chaînes «Leonardo da Vinci» et «da Vinci, Leonardo» peuvent toutes deux être liées à l’élément Wikidata représentant le polymathe de la Renaissance italienne.

MR : Pourquoi est-il important d'enrichir les métadonnées avec des termes issus d'ensembles de données ou de vocabulaires Linked Open?

EK : L'enrichissement sémantique ajoute du sens et du contexte aux collections numériques et les rend plus faciles à découvrir. Compte tenu de son importance, l’initiative Europeana, ainsi que les agrégateurs et les fournisseurs de données individuels, ont été l’une des principales préoccupations et l’un des principaux axes des efforts qu’ils déploient.

Premièrement, les données liées rendent les métadonnées textuelles univoques. Par exemple, la chaîne «Leonardo da Vinci» peut également faire référence, selon le contexte, à l’aéroport italien ou à un cuirassé du même nom. Chacun de ces concepts sont représentés via un URI dédié (Unique Reference Identifier) de Wikidata, et, ainsi, en reliant le texte avec l'URI correct, il devient clair à quoi le texte se réfère.

Deuxièmement, les données liées nous permettent de récupérer des informations supplémentaires sur une certaine entité, de créer des liens entre différentes ressources et de les contextualiser. Par exemple, il nous permet de lier des articles marqués du terme «ring» au concept plus large de «bijouterie» et de les relier à des articles enrichis du terme «bracelet», qui est également un exemple de «bijouterie».

Enfin, les données liées sont généralement accompagnées de traductions, ce qui améliore les capacités de recherche multilingue. Cela permet à ceux qui utilisent des répertoires en ligne de parcourir et de rechercher des collections au niveau de la «couche sémantique»: une personne qui recherche «κόσμημα» (le mot grec pour «bijouterie») sera en mesure de découvrir des articles décrits comme des bagues ainsi que des bracelets.

MR : Alexandros, l'enrichissement des métadonnées nécessite des efforts et des ressources qui font souvent défaut aux institutions du patrimoine culturel. Comment les technologies numériques peuvent-elles contribuer à relever ce défi?

Alexandros Chortaras: Les institutions du patrimoine culturel peuvent utiliser des technologies de pointe pour automatiser le processus manuel, fastidieux et souvent banal d'enrichissement des métadonnées. Les outils de traitement du langage naturel peuvent être utilisés pour analyser les métadonnées textuelles et détecter et classer les entités nommées, telles que les personnes ou les noms de lieux, mentionnées dans le texte non structuré. Les approches d’apprentissage automatique sont largement utilisées pour la désambiguïsation des entités nommées, qui est chargée de décider si, par exemple, la référence à «Leonardo da Vinci» dans le texte fait référence au polymathe italien ou au cuirassé. Selon les caractéristiques du texte, telles que sa longueur et sa langue, le vocabulaire auquel nous souhaitons le lier et le type d'entités que nous souhaitons détecter, il faut combiner les outils les plus appropriés à la tâche spécifique. Par exemple, d’après notre expérience avec des projets antérieurs tels que CRAFTED, pour certaines tâches avec un contexte restreint bien défini, même une simple approche de lemmatisation et d’appariement de chaînes peut être plus appropriée que des algorithmes complexes basés sur le ML.

MR : Mais puis-je faire entièrement confiance aux résultats d'un algorithme automatique? Et s'il commet des erreurs?

AC : En effet, les algorithmes automatiques qui analysent le texte libre pour la reconnaissance d'entités nommées et la désambiguïsation font des erreurs. La précision dépend de la tâche à accomplir et de l'algorithme appliqué. Par exemple, les descriptions textuelles courtes qui sont courantes dans les métadonnées manquent de contexte et, par conséquent, les algorithmes de ML formés sur les articles de Wikipédia peuvent entraîner des correspondances incorrectes.

De plus, même si les liens détectés automatiquement sont corrects, ils peuvent être considérés comme indésirables dans un certain contexte. Par exemple, lier des enregistrements de métadonnées à des termes représentant des couleurs peut être important pour une collection de mode, mais il peut être indésirable de décrire un manuscrit qui mentionne une certaine couleur. Ainsi, l'inspection humaine et la validation des annotations automatiques sont indispensables. Cependant, comme il y a souvent des milliers d'annotations automatiques, la validation manuelle peut être un processus très gourmand en ressources. Sur le plan pratique, les humains devraient examiner un échantillon sélectionné des annotations et, en fonction des résultats et de l'objectif, décider des critères de filtrage appropriés.

MR : Une dernière question pour Eirini. Il existe de nombreux algorithmes et bibliothèques, mais il semble que des connaissances techniques considérables soient nécessaires pour les mettre en place. Comment AI4Culture aide-t-il les institutions du patrimoine culturel à tirer parti de ces technologies?

ΕΚ: Dans le cadre du projet AI4Culture, nous travaillons sur une plateforme, appelée SAGE, développée par l’université technique nationale d’Athènes. SAGE facilite l'enrichissement sémantique des métadonnées du patrimoine culturel en offrant une suite d'annotateurs établis (modèles d'enrichissement) configurés pour répondre aux besoins du secteur. La plate-forme prend en charge l'ensemble du flux de travail d'enrichissement, de l'importation de données et de la production automatique d'annotations sémantiques à la validation humaine et à la publication des données dans le format attendu par Europeana. Cet outil a été utilisé avec succès pour enrichir les métadonnées du patrimoine culturel dans plusieurs applications (notamment dans le cadre des projets CRAFTED et Europeana XX). Dans le contexte d’AI4Culture, il a été étendu pour masquer la complexité technique des algorithmes d’enrichissement sémantique automatique et pour favoriser une interopérabilité sans faille avec l’espace européen commun des données pour le patrimoine culturel. À cette fin, la plateforme prend en charge des formats pertinents pour les métadonnées du patrimoine culturel, tels que EDM (Europeana Data Model) et facilite l’importation directe de métadonnées provenant de sources liées au patrimoine culturel telles que Europeana.eu ou l’outil MINT utilisé par plusieurs agrégateurs Europeana.

Pour l'instant, les personnes intéressées peuvent essayer SAGE ici. Le code source est disponible sur GitHub (frontend, backend). Vous pouvez apprendre à utiliser SAGE en suivant une série de tutoriels vidéo et en lisant les instructions Wiki

En savoir plus

En septembre 2024, le projet AI4Culture lancera une plateforme où des outils ouverts, tels que l’outil SAGE pour l’enrichissement sémantique présenté ci-dessus, seront mis à disposition en ligne, ainsi que la documentation et le matériel de formation connexes. Gardez un œil sur la page du projet sur Europeana Pro pour plus de détails et restez à l'écoute sur le compte LinkedIn et X du projet!