Publié 2 juillet 2026 par

Katerina Zourou (Web2Learn)

Poursuivez votre lecture pour avoir un aperçu d’un projet pilote reproductible combinant l’utilisation de la plateforme et des API Europeana.eu, des modèles d’IA préformés, la modélisation de code en direct et de données sémantiques, des contributeurs humains sur une plateforme de crowdsourcing, un outil de thésaurus sensible aux biais et des métriques de données, ce qui a conduit à l’enrichissement d’une collection ethnographique ukrainienne sur Europeana.eu grâce à 55 000 actions d’annotation et à près de 6 000 nouvelles balises de métadonnées.

La sauvegarde du patrimoine ukrainien par les citoyens

Depuis 2025, Web2Learn, en collaboration avec les universités du Luxembourg, de Lettonie, de Kiev Taras Shevchenko et de la Fondation Europeana, collabore à AISTER, un projet Erasmus+ qui porte sur la participation citoyenne fondée sur l’IA à la sauvegarde du patrimoine culturel ukrainien. Web2Learn apporte son expertise en matière d'innovation citoyenne au projet en utilisant des technologies open source qui favorisent l'éducation, la formation et la citoyenneté active.

A painting of a woman in traditional Ukrainian attire with text about annotating Ukrainian folk art.

L'affiche pilote HITL Crowdsourcing de Web2Learn incorpore la peinture folklorique "Portrait d'une fille" telle qu'attribuée ci-dessus, incorporée dans la présente composition avec l'autorisation supplémentaire du titulaire des droits.

Le consortium AISTER a prévu une série d'ateliers avec la participation de chercheurs, d'étudiants et de jeunes professionnels pour la durée du projet. Cinq ateliers animés par Web2Learn en ligne et sur place à la bibliothèque de l'Université de Lettonie ont permis d'organiser un projet pilote: tester un flux de travail humain en boucle pour enrichir les collections numériques d’images grâce au crowdsourcing et aux outils d’IA, en invitant les participants à l’atelier à s’engager dans le patrimoine ethnographique ukrainien et à devenir des contributeurs actifs en enrichissant et en validant les balises de description générées par l’IA.

Le projet pilote a été conçu comme une ressource ouverte et reproductible avec une documentation détaillée pour faciliter la recherche et la formation en sciences humaines numériques, et est mis gratuitement à la disposition des chercheurs, des étudiants et des enseignants, ainsi que pour une réutilisation créative.

Art populaire ukrainien sur Europeana.eu

En 2025, le Krovets Online Museum of Traditional Art of Ukraine, qui fonctionne depuis 2014 grâce aux efforts volontaires des fondateurs du musée, a publié un ensemble de données sur Europeana.eu par l’intermédiaire de l’agrégateur MUSEU, qui comprend 3 840 artefacts du patrimoine ethnographique, y compris des costumes traditionnels, de l’artisanat textile, de l’art populaire, de la culture matérielle et des photographies.

Les images utilisées pour le pilote proviennent de cette collection ethnographique. Dans le cadre du projet pilote, une galerie d’art populaire ukrainien a été publiée sur Europeana.eu, donnant accès à la sous-collection d’art populaire du musée, qui comprend 312 artefacts classés comme peintures folkloriques ou icônes folkloriques. La plupart des peintures, représentant la vie rurale quotidienne, le folklore et les thèmes religieux, proviennent des régions ethnographiques centrales de l'Ukraine, de la Podniprovie centrale et de Poltavshchyna, et datent principalement du début et du milieu du XXe siècle.

La collection est composée principalement de scènes de genre, de paysages et de portraits individuels. Les peintures folkloriques forment des récits visuels, offrant des instantanés de paysages ruraux, de traditions religieuses, de motifs d'art populaire et de culture matérielle quotidienne. Beaucoup de détails sont faciles à remarquer lorsque vous regardez les images, mais pas toujours faciles à découvrir grâce à la recherche.

Le pilote de crowdsourcing human-in-the-loop

Le projet pilote visait à créer une nouvelle couche de visibilité pour l’art populaire ukrainien. Il a mis au point un flux de travail qui combine l’utilisation d’API Europeana, de méthodes fondées sur l’IA pour le traitement du langage naturel et la vision par ordinateur, de Jupyter Notebook en tant qu’espace de travail interactif pour le codage reproductible et le traitement des données fondé sur l’éthique, ainsi que l’engagement du public par l’intermédiaire de la plateforme de crowdsourcing CrowdHeritage afin de créer des balises de description consultables, validées par l’homme et évaluées éthiquement dans leur ensemble.

Pour commencer, deux API Europeana ont été utilisées pour récupérer les éléments de la galerie et les métadonnées, l'API Europeana User Set pour accéder aux galeries générées par les utilisateurs publiées sur Europeana et l'API Europeana Search pour la récupération des métadonnées du contenu accédé sur Europeana, modélisée à l'aide du modèle de données Europeana (EDM). Ensuite, de nouvelles annotations descriptives ont été générées avec des outils d'IA qui utilisaient des modèles d'IA pré-formés open source et des bibliothèques dans le traitement du langage naturel et la vision par ordinateur. Les annotations automatisées ont été générées dans Jupyter Notebooks et sérialisées dans JSON-LD selon le modèle de données d’annotation Web du W3C (World Wide Web Consortium), afin de prendre en charge leur importation dans la plateforme de crowdsourcing CrowdHeritage gérée par Datoptron.

Au total, le projet pilote a développé huit ordinateurs portables Jupyter, qui ont fonctionné comme des environnements informatiques interactifs qui permettent le codage en direct et la reproductibilité pour soutenir l'exécution de bout en bout des étapes de traitement des données. Les blocs-notes ont été implémentés dans Google Colab pour permettre une collaboration et une co-édition en temps réel, puis transférés en tant que référentiel ouvert sur GitHub pour le contrôle des versions, ce qui facilite la transparence et la traçabilité de l'optimisation du code collaboratif. Ils couvrent l'ensemble du processus de données du projet pilote en étapes séquentielles, qui comprennent:

Étape 1: Génération d'annotations automatisées à partir de métadonnées textuelles (basées sur NLP)

1i. Récupérez les identifiants des objets dans la galerie d’art populaire ukrainien publiée à l’aide du jeu d’utilisateurs Europeana ΑPI et récupérez les métadonnées textuelles (par exemple, titres, sujets) des artefacts à l’aide de l’API de recherche Europeana.

1ii. Générez des annotations automatisées (étiquettes de description) à partir des métadonnées en utilisant les techniques de traitement en langage naturel (NLP), en particulier les heuristiques basées sur des règles et la reconnaissance d'entités nommées (NER) à l'aide de la bibliothèque open source Python spaCy.

Étape 2: Génération automatisée d'annotations à partir d'images (basée sur la vision par ordinateur)

2i. Téléchargez des artefacts de la galerie sous forme d'images à l'aide de l'API Europeana User Set.

2ii. Générer des légendes d’images descriptives à l’aide de techniques de vision par ordinateur avec des modèles d’IA préformés, en particulier des variantes des modèles Qwen open source – modèle multimodal de langage visuel Qwen3-VL-2B-Instruct (VLM) et modèle de grand langage Qwen3.5-4B (LLM).

2iii. Générez des annotations automatisées à partir des légendes de l'image.

Étape 3: Préparation d'annotations automatisées pour la validation participative (formatage JSON-LD)

3i. Formatez toutes les annotations générées sur la base du modèle d'annotation W3C pour l'ingestion directe dans la plate-forme de crowdsourcing CrowdHeritage.

3ii. Convertissez les annotations finales au format JSON en un CSV lisible par machine et combinez toutes les annotations des cinq ateliers de crowdsourcing.

Étape 4: Assurance de la qualité des données et criblage des annotations validées par l’homme tenant compte des biais

4i. Vérifiez les annotations finales par rapport aux termes nocifs, biaisés ou litigieux dans le vocabulaire DE-BIAS par le biais d'une requête de thésaurus basée sur RDF.

Screenshot of code for image captioning, with a painting of a man on a horse and a woman near a windmill below.

Au cours de cinq ateliers de crowdsourcing organisés sur place et en ligne, 70 participants, dont des chercheurs, des étudiants universitaires et des experts en art populaire, ont examiné les annotations générées par l'IA, confirmant les balises précises, rejetant celles trompeuses par des votes positifs et négatifs et contribuant à leurs propres annotations supplémentaires.

Informations sur les données et évaluation éthique

La majorité des images ont été enrichies de 15 à 20 nouvelles balises descriptives chacune. Dans l'ensemble, près de 55 000 actions d'annotation ont été enregistrées, y compris la génération d'étiquettes, les votes positifs et les votes négatifs. Les indicateurs post-campagne révèlent que la plupart des annotations générées par l’IA ont été acceptées comme exactes, seules quelques-unes d’entre elles ayant été rejetées.

Ces cinq étiquettes générées par l'IA ont reçu les taux d'acceptation les plus élevés:

icône
peinture
homme
arbres
femme.

Ces cinq balises générées par l'IA ont reçu les taux de rejet les plus élevés:

fissures
usure
dommages
petit objet
personnel.

L'application d'une évaluation d'impact éthique aux annotations finales a été considérée comme une étape importante du projet pilote. Un deuxième niveau d'examen a été effectué pour identifier les termes potentiellement problématiques et renforcer la responsabilisation. Le dépistage des étiquettes approuvées par l'homme par rapport au vocabulaire DE-BIAS a permis d'identifier un terme, esclave, qui a ensuite été révisé pour devenir une personne asservie conformément à la recommandation. Le vocabulaire a été appliqué en tant que mesure d’évaluation de l’impact éthique avant la publication finale de l’ensemble de données ouvertes, en tenant compte de la «Recommandation de l’UNESCO sur l’éthique de l’intelligence artificielle» (2022) et de l’outil d’«évaluation de l’impact éthique» (2023).

Le développement du projet pilote et la compréhension de ses dimensions éthiques liées à l’IA ont également été étayés par l’étude d’analyse de données AISTER, qui a cartographié 22 projets de recherche internationaux utilisant l’intelligence artificielle et la participation citoyenne pour la préservation du patrimoine culturel dans des contextes d’urgence. L’étude a classé les projets sélectionnés à l’aide du cadre de classification AISTER, qui propose une catégorisation systématique de 24 dimensions analytiques conçues pour analyser les initiatives en matière de patrimoine participatif fondées sur l’IA. Les dimensions du cadre comprennent les domaines du patrimoine culturel, le modèle de participation citoyenne (Shirk et al., 2012) et le modèle de coopération (Carayannis & Campbell, 2009), ainsi que les dimensions spécifiques à l’IA, y compris les types de technologie de l’IA, le modèle d’agent rationnel (Russell & Norvig, 2020, 4e éd.), la typologie éthique appliquée de l’IA (Morley et al., 2019), les types de licences et plus encore. Les données de l’étude sont publiées sous la forme de visualisations web interactives en libre accès qui offrent une exploration comparative du domaine. Le flux de travail pilote et les résultats sont publiés dans un prochain document de conférence (Ziku, Zourou, & Kouzelis, 2026).

Conclusions

Le projet pilote visait à créer une voie ouverte et reproductible pour l’utilisation d’outils d’IA afin de traiter les données à grande échelle, combinée à la participation humaine, à l’évaluation éthique et aux informations sur les données, afin de soutenir des moyens plus précis, responsables, axés sur les métriques et enrichis de découvrir l’art populaire ukrainien. Parfois, le voyage fortuite dans le patrimoine commence par le mot tapé dans une boîte de recherche. Et parfois, les bons mots peuvent mettre en lumière une nouvelle collection.

Les trois contributeurs les plus actifs à la campagne de crowdsourcing ont reçu des honoraires ainsi que des badges d'or, d'argent et de bronze respectivement: Inna Kaika, étudiante en langue anglaise et littérature étrangère, Université d'État de Mykola Gogol; Daria Markova, étudiante en traduction à l’université technique d’État de Pryazovskyi; Marko Lakhmatov, étudiant en cybersécurité, Université technique d'État de Pryazovskyi.

En réfléchissant à sa participation, Inna a déclaré: «L’art ukrainien reflète la résilience et la créativité de notre peuple, et son partage est plus important que jamais. Animée par cette passion, j'ai rejoint la campagne pour rendre le patrimoine culturel plus accessible. J'ai particulièrement apprécié le processus d'annotation et l'exploration de la collection ethnographique. C’était un honneur de contribuer à un projet qui réunit l’art et la technologie.»

Explorer et réutiliser les ressources pilotes

Intéressé à appliquer des méthodes similaires à vos propres collections?

Voir la campagne de crowdsourcing pour l'art populaire ukrainien sur CrowdHeritage.
Explorez le pilote de crowdsourcing humain dans la boucle.
Réutilisez les blocs-notes Jupyter open source, qui documentent l’ensemble du flux de travail, de la récupération des données aux annotations générées par l’IA et aux exportations prêtes pour la plateforme.
Accédez aux ensembles de données ouverts sur le répertoire ouvert de Zenodo, qui comprennent les données et les résultats du projet pilote à des fins de conservation, de citation et de réutilisation.
Explorez les visualisations interactives de données et découvrez les idées de 22 initiatives de recherche internationales qui utilisent l'IA et la participation citoyenne pour la préservation du patrimoine culturel dans les situations d'urgence et au-delà.

Remerciements

Nous tenons à remercier tous les partenaires et collaborateurs du projet AISTER, et en particulier Yevgen Dmytruk au Musée Krovets, Eirini Kaldeli à CrowdHeritage et Datoptron, Hugo Manguinhas à la Fondation Europeana, et Uldis Zariņš et Sanita Reinsone à l'Université de Lettonie.

Références sélectionnées

La documentation des carnets Jupyter suit les critères d’évaluation de la qualité des projets Jupyter par les institutions GLAM, tels que publiés dans Candela, G., Chambers, S., & Sherratt, T. (2023). Une approche pour évaluer la qualité des projets Jupyter publiés par les institutions GLAM. Journal of the Association for Information Science and Technology, 74(13), 1550-1564.
La documentation README du projet pilote sur GitHub adopte la structure de la documentation des ensembles de données basée sur Git de KU Leuven Libraries. Voir: KU Leuven Libraries, Département de numérisation. (2019). The Portraits Collection Dataset of KU Leuven Libraries, Special Collections (Version 01-beta2) [Ensemble de données]. Zenodo.
M. Ziku, K. Zourou et A. Kouzelis, « AI-Assisted Metadata Enrichment for Ethnographic Heritage: A Reproducible Human-in-the-Loop Crowdsourcing Workflow», 2026 IEEE International Conference on Cyber Humanities (IEEE-CH), Venise, Italie, 7-9 septembre 2026, sous presse.

Discovering Ukrainian folk art together: a human-in-the-loop crowdsourcing pilot

Partager