Agrégation des données liées
Les données liées sont un moyen de publier des données structurées sur le Web qui permet de connecter et d'enrichir les métadonnées. Cela garantit que différentes représentations du même contenu peuvent être trouvées et que des liens sont établis entre les ressources connexes. L’agrégation de données liées est susceptible d’apporter des avantages en termes de coûts et d’améliorer l’interopérabilité des données à l’échelle mondiale, et le projet Europeana Common Culture a étudié la faisabilité de l’utilisation de ces données liées pour l’agrégation.
Europeana exploite déjà un modèle évolutif et durable d’agrégation des métadonnées pour le secteur du patrimoine culturel. L’agrégation de données liées permettrait aux fournisseurs de données de partager plus facilement leurs métadonnées avec les agrégateurs du patrimoine culturel qui utilisent des données liées. Pour les fournisseurs qui ne publient pas encore de données liées, leur mise en œuvre en vue de leur participation à Europeana leur permettrait également d’utiliser leurs données liées pour d’autres applications et dans d’autres domaines que le patrimoine culturel, tels que les moteurs de recherche sur l’internet.
Travailler avec les fournisseurs de données
Ce projet pilote s’est déroulé de mai 2019 à juin 2020. Il a été coordonné par l'Institut néerlandais du son et de la vision (NISV) et livré en étroite collaboration avec le Réseau néerlandais du patrimoine numérique (NDE) qui a soutenu le projet en fournissant des connaissances, des logiciels et une infrastructure pour exécuter les tests. Le projet pilote a impliqué trois types de participants à l’écosystème Europeana: les fournisseurs de données, les agrégateurs et la Fondation Europeana. Douze fournisseurs de données se sont joints au projet pilote, mais ils n'étaient pas tous pleinement conscients des défis techniques que cette nouvelle approche apporterait. Quatre des fournisseurs n’ont pas été en mesure de fournir un ensemble de données en tant que données liées, et deux autres fournisseurs ont fourni des ensembles de données dont les données étaient insuffisantes pour être agrégées dans Europeana.
Dans les six cas réussis, cinq fournisseurs possédaient déjà des connaissances internes ou une mise en œuvre existante de données liées, et pour l'un d'entre eux, il s'agissait de son premier effort de publication de données liées. Notre conclusion est qu'il y a beaucoup d'intérêt à mettre en œuvre des données liées entre les fournisseurs de données. Cependant, cela nécessite un niveau important de ressources lorsqu'une organisation n'a pas d'expérience préalable.
Résultats pilotes
Le projet pilote a appliqué une approche d’agrégation de données couplées fondée sur deux spécifications pour la fourniture d’un ensemble de données couplées pour Europeana. Celles-ci avaient déjà été couronnées de succès pour un projet pilote à petite échelle dans le cadre du projet Rise of Literacy.
La première spécification est que les métadonnées au niveau des ensembles de données doivent être fournies en utilisant des vocabulaires bien connus. Il comprend les types de distributions d'ensembles de données que les fournisseurs de données peuvent utiliser, ainsi que les métadonnées requises pour chacun d'eux.
Une deuxième spécification porte sur l’utilisation des données liées à Schema.org pour décrire les objets du patrimoine culturel conformément aux exigences d’Europeana et du modèle de données Europeana (EDM). Actuellement, Europeana ne prend en charge que l'ingestion de métadonnées dans EDM. Cependant, des expériences sur l'application de Schema.org aux descriptions de métadonnées d'objets du patrimoine culturel ont montré qu'il peut fournir des données de bonne qualité, capables de répondre aux exigences d'Europeana. Cette spécification fournit un niveau général d'orientation pour l'utilisation des métadonnées de Schema.org qui, après conversion en EDM, se traduira par des métadonnées qui conviennent à l'agrégation par Europeana.
Ce projet pilote a également abouti à la création d’un ensemble d’outils pour l’agrégation de données liées, conçu pour être utilisé par les agrégateurs Europeana et les agrégateurs d’autres réseaux similaires. Bien que la fonctionnalité de l'ensemble d'outils soit adaptée à l'EDM, les agrégateurs utilisant d'autres modèles de données peuvent ajouter leurs propres conversions et validations en utilisant les normes mises en œuvre par l'ensemble d'outils. Le jeu d'outils est basé sur des conteneurs Docker qui préservent l'indépendance technique de ses outils, rendant la solution portable dans différents environnements et évolutive, donnant la possibilité d'appliquer le jeu d'outils à de petites ou grandes collections. Le jeu d’outils et son code source sont disponibles dans Github.
Travaux futurs
Un certain nombre de domaines de travail futurs ont été identifiés. Les fournisseurs de données bénéficieraient d’outils pour préparer leurs données liées. Les outils de validation mis en œuvre dans le jeu d’outils peuvent également être utilisés dans la création de services pour les fournisseurs de données, ce qui leur permet de vérifier la validité de leurs données à des stades antérieurs de la publication des données liées. Une première étape dans cette direction a été réalisée en testant les données agrégées liées à l’aide du bac à sable Europeana Metis. Une deuxième ligne de travail, qui débutera en 2021, sera axée sur les éléments d’interopérabilité et d’intégration de l’ensemble d’outils dans les systèmes d’agrégateurs. Ce travail sera coordonné par l'Institut néerlandais du son et de la vision dans le cadre du projet national néerlandais Digitale Collectie.
Pour en savoir plus sur les données liées, regardez notre webinaire d'octobre 2020 sur LODA - l'agrégateur de données ouvertes liées, et si vous êtes intéressé par le sujet et souhaitez avoir plus de chances d'en discuter, rejoignez la communauté EuropeanaTech.
Cet article a été modifié le 21 janvier 2021 afin de mettre à jour les détails des futurs travaux prévus dans ce domaine.
