Marco Rendina: Eirini, commençons par les bases. Qu'est-ce que le crowdsourcing?
Eirini Kaldeli: Le crowdsourcing est le processus de distribution d'une tâche à un groupe de personnes, qui contribuent généralement par leur travail en ligne. Dans certains cas, les contributeurs reçoivent une compensation matérielle; dans d'autres, leur participation est volontaire, les récompenses étant sans importance, telles que la satisfaction personnelle, la contribution culturelle ou l'acquisition de connaissances. Dans le secteur du patrimoine culturel, le crowdsourcing a longtemps été utilisé pour relever divers défis, de la collecte de contenu et de la transcription au marquage des collections et à la détection de termes biaisés dans la description des objets du patrimoine culturel. Selon la nature de la tâche, les participants peuvent avoir besoin de compétences ou de connaissances spécialisées.
MR : Quels sont les avantages du crowdsourcing pour le secteur du patrimoine culturel?
EK: Un projet de crowdsourcing responsable et significatif peut apporter des avantages mutuels aux institutions du patrimoine culturel et aux participants. Tout d'abord, le crowdsourcing devrait être abordé comme un moyen de faire participer les citoyens aux collections patrimoniales. D'une part, les participants ont la possibilité d'interagir avec le patrimoine culturel et de s'y connecter; apprendre des informations utiles sur des éléments et des sujets d'une manière ludique; partager leurs points de vue et leurs connaissances; co-façonner la présentation des collections; et collaborer avec ses concitoyens dans le cadre d’une expérience participative. D'autre part, les institutions du patrimoine culturel peuvent améliorer la qualité de leurs collections et les rendre plus faciles à découvrir et plus accessibles; sensibiliser à leurs biens patrimoniaux culturels; atteindre de nouveaux publics; et obtenir des informations plus approfondies sur la façon dont leurs collections sont perçues par les communautés.
MR : Spyros, pourriez-vous nous dire quelques mots sur la plateforme CrowdHeritage sur laquelle vous travaillez dans le cadre du projet AI4Culture?
Spyros Bekiaris: CrowdHeritage est une plate-forme ouverte pour l'organisation de campagnes de crowdsourcing en ligne qui mobilisent les gens pour améliorer la qualité des collections du patrimoine culturel. Cela pourrait concerner différents aspects, de la couverture multilingue au marquage sémantique. Les participants sont invités à enrichir les collections numériques, soit en produisant de nouvelles informations (par exemple, en ajoutant des géolocalisations), soit en évaluant et en validant les résultats automatiques produits par les outils numériques (par exemple, traductions automatiques ou détection de langage biaisé).
CrowdHeritage a été largement utilisé pour stimuler la participation dans les environnements éducatifs et les milieux scientifiques citoyens en engageant les communautés, y compris les étudiants et les élèves, les amoureux de la culture, les professionnels du patrimoine culturel et le grand public. La plateforme a jusqu'à présent été utilisée pour organiser 40 campagnes de crowdsourcing avec plus de 970 contributeurs uniques, générant environ 112 000 annotations et en évaluant plus de 16 000.
MR : Le crowdsourcing est enraciné dans l'effort manuel distribué tandis que AI4Culture concerne les technologies d'IA. Pouvez-vous expliquer la relation entre la plateforme CrowdHeritage et les outils d'IA?
SB : CrowdHeritage a été conçu à l'origine pour soutenir les campagnes qui invitent les utilisateurs à ajouter de nouvelles annotations à partir de zéro. Au cours des dernières années, nous constatons un intérêt croissant pour le couplage de CrowdHeritage avec les outils d'IA. Ces outils offrent des possibilités remarquables d'améliorer automatiquement la qualité des collections numériques du patrimoine culturel à grande échelle et avec un minimum d'effort manuel, de la reconnaissance optique des caractères et de la traduction automatique, au sous-titrage automatique et à la classification des images.
Cependant, le recours à des méthodes purement automatiques a également révélé plusieurs problèmes qui doivent être traités. Nous avons besoin de moyens d'évaluer si les résultats des algorithmes d'IA sont suffisamment précis pour nos normes et de comparer le comportement des différents algorithmes sur des données spécifiques et sur la base de certains critères. Dans ce contexte, le crowdsourcing est un excellent moyen d'exploiter l'intelligence humaine collective et de recueillir des informations utiles. Les retours accumulés peuvent nous aider à filtrer les résultats automatiques incorrects, à appliquer des filtres appropriés pour maintenir ce que nous considérons comme des résultats de bonne qualité et à repérer certaines lacunes des algorithmes d'IA. Dans cette interaction avec l'IA, la plate-forme CrowdHeritage est également utile pour produire des ensembles de données de vérité au sol qui peuvent être davantage exploités pour adapter les outils d'IA en relation avec les données du patrimoine culturel.
MR : Eirini, pouvez-vous fournir des exemples concrets de la façon dont CrowdHeritage a été appliqué en combinaison avec des outils d'IA?
EK: Je peux en fournir beaucoup! Dans le cadre du projet Europeana Translate, nous avons mené un certain nombre de campagnes au cours desquelles les participants ont évalué les résultats d'un algorithme de traduction automatique formé aux métadonnées Europeana (développé par notre partenaire AI4Culture, Pangeanic). Ce retour d’information nous a permis d’améliorer la qualité des résultats et a également conduit à la création d’ensembles de données ouverts publiés sur le répertoire ELRC-SHARE, qui rassemble des ressources linguistiques dans l’ensemble de l’UE.
Dans une autre étude de cas sur la sélection de modèles de Super Résolution optimale (SR) pour différents types d'images (que vous connaissez très bien, Marco!), nous avons mis en place une campagne en collaboration avec l'Association européenne du patrimoine de la mode (EFHA), où les participants ont été invités à comparer et à classer un échantillon d'images mises à l'échelle par différents modèles SR. Les résultats de cette campagne ont permis à l'EFHA de sélectionner et d'appliquer le meilleur algorithme SR en fonction des caractéristiques de l'image.
Dans le cadre du projet CRAFTED, une série de campagnes ont été organisées pour évaluer les couleurs automatiquement identifiées par des algorithmes de détection des couleurs par IA. L'analyse des commentaires recueillis nous a amenés à la conclusion que les algorithmes automatiques identifiaient à plusieurs reprises certaines couleurs absentes spécifiques et manquaient certaines couleurs existantes, ce qui nous a aidés à améliorer notre approche de filtrage et à sélectionner la meilleure configuration d'algorithme.
Dans le cadre du projet DE-BIAS, nous sommes en train de mettre en place une série de campagnes dans le cadre desquelles les communautés inspecteront et évalueront les termes signalés par un outil de détection automatique des biais comme contenant un langage péjoratif.
MR : C’est vraiment intéressant, Eirini, mais les institutions du patrimoine culturel pourront-elles utiliser la plateforme CrowdHeritage pour mettre en place leurs propres campagnes de crowdsourcing?
EK : Bien sûr! Grâce au projet AI4Culture, une nouvelle fonctionnalité d’«éditeur de campagne» a été mise à disposition sur CrowdHeritage, qui permet à quiconque de mettre en place et de mener une campagne de crowdsourcing sur la plateforme. Toute personne intéressée peut regarder ce tutoriel vidéo ou consulter la documentation CrowdHeritage pour en savoir plus!
En savoir plus
En septembre 2024, le projet lancera une plateforme sur laquelle un ensemble d’outils ouverts sera mis à disposition en ligne, ainsi que la documentation et le matériel de formation connexes. Gardez un œil sur la page du projet sur Europeana Pro pour plus de détails et restez à l'écoute sur le compte LinkedIn et X du projet!
