EuropeanaTech Challenge for Europeana AI/ML Datasets: annoncer les gagnants!

Publié 22 mars 2021 par

Clemens Neudecker (Berlin State Library)

Les méthodes issues du domaine de l’intelligence artificielle (IA) et de l’apprentissage automatique (ML) ont contribué à repousser les limites technologiques dans divers domaines, y compris dans le secteur du patrimoine culturel (le rapport intermédiaire d’EuropeanaTech AI relatif au groupe de travail sur les GLAM et l’initiative AI4LAM fournissent quelques exemples). Pour encourager l’innovation dans ce domaine, EuropeanaTech a annoncé il y a quelques semaines son premier défi pour les ensembles de données Europeana AI/ML. Avec cette nouvelle activité, nous voulions stimuler la création d'ensembles de données pour le secteur GLAM qui peuvent être utilisés pour l'IA / ML, en s'appuyant sur les riches ressources du patrimoine culturel disponibles dans Europeana. Nous espérons que la disponibilité de ces ensembles de données pourrait contribuer à favoriser un engagement accru avec les données du patrimoine culturel numérique dans l’IA/ML et à soutenir le transfert des avancées récentes dans le domaine de l’IA/ML vers le domaine de la conservation numérique et de l’analyse du contenu du patrimoine culturel.

Nous avons reçu un total de cinq propositions, qui ont été soigneusement examinées par les membres du groupe de pilotage EuropeanaTech et de l’IA dans le cadre du groupe de travail sur les GLAM. Ils ont évalué les propositions sur la base de leur pertinence pour le secteur GLAM (25 %), de leur pertinence pour l’IA/ML (25 %), de leur relation avec Europeana (30 %) et de la clarté de la description et du plan de travail (20 %).

Annonce des gagnants

Entités nommées dans les textes archéologiques

Cette proposition d'une équipe basée à l'Université de Naples «L'Orientale» vise à créer un ensemble de données pour la reconnaissance d'entités nommées (NER) et l'extraction de termes archéologiques en italien et en anglais dans la collection Europeana Archeology. NER est le processus d'identification des noms propres tels que les noms de personnes ou les emplacements dans le texte non structuré. Term Extraction est similaire, mais se concentre sur la recherche de termes spécialisés, dans ce cas du domaine de l'archéologie. Des vocabulaires comme Getty et CIDOC CRM seront pris en compte. L'ensemble de données final pourrait être utilisé pour le développement et l'évaluation de technologies basées sur l'IA/ML pour les NER dans le domaine de l'archéologie.

Les examinateurs ont particulièrement apprécié la structure claire et la maturité de la proposition, pour laquelle un jeu de données simulé a déjà été créé à l’aide des API d’Europeana pour tester l’approche proposée. L'aspect bilingue et la rareté de ressources libres similaires pour le domaine de l'archéologie ont également été considérés comme particulièrement précieux.

Zac Grace

Cette proposition d'un étudiant de l'Ecole Nationale d'Ingénieurs de Tarbes vise à créer des masques de pixels pour la segmentation sémantique, à travers l'annotation manuelle de données d'images dans la collection Europeana Fashion. Cela signifie que, par exemple, lorsqu'une image est analysée, les éléments de mode pertinents (chandail, pantalon, chaussures) dans l'image sont ensuite marqués avec leurs contours de pixels. Ces données peuvent être utilisées pour former un système de segmentation automatisé.

Les examinateurs ont apprécié la portée et la compréhension claires du travail requis pour mettre en œuvre la proposition. Ils ont également pensé qu'il avait beaucoup de potentiel d'application dans différentes collections.

Les contextes litigieux Corpus

Cette proposition conjointe du KNAW Humanities Cluster et du Centrum Wiskunde & Informatica aux Pays-Bas veut établir un corpus annoté de termes litigieux dans le contexte (ConConCor) des journaux néerlandais d'Europeana. Ceux-ci peuvent ensuite être utilisés pour bootstraper et évaluer des méthodes (semi-)automatiques pour détecter de tels termes dans les collections du patrimoine culturel. Les termes litigieux désignent ici les mots ou expressions qui suggèrent un parti pris (implicite ou explicite) envers ou contre un groupe, un événement ou autre.

Les évaluateurs ont apprécié la manière dont la présente proposition vise à répondre à un objectif clé du défi, à savoir la détection des questions éthiques et des préjugés inhérents aux collections du patrimoine culturel numérisé.

Trois allocations de 2 500 euros chacune seront mises à la disposition des lauréats afin de mettre en œuvre leurs propositions et de fournir les ensembles de données correspondants d’ici la fin du mois de juin 2021.

En savoir plus

Nous tenons à exprimer notre gratitude à tous ceux qui ont soumis une proposition à ce défi pour leur travail acharné et leurs excellentes idées. Nous attendons avec impatience la mise en œuvre des projets gagnants et espérons qu'un autre tour s'ouvrira à l'avenir pour ceux qui n'ont pas réussi cette fois-ci!

Si vous souhaitez connaître plus d’opportunités comme celle-ci et réseauter et collaborer avec des professionnels techniques multidisciplinaires du monde entier, rejoignez EuropeanaTech par l’intermédiaire de l’Europeana Network Association et suivez la communauté sur Twitter.

Cet article a été édité le 16/04/21 pour refléter le délai prolongé pour les gagnants de livrer leurs ensembles de données.

EuropeanaTech Challenge for Europeana AI/ML Datasets: annoncer les gagnants!

Partager

Annonce des gagnants

En savoir plus

Découvrir du contenu connexe