Sammenlægning af sammenkædede data
Sammenkædede data er en måde at offentliggøre strukturerede data på internettet, der gør det muligt at forbinde og berige metadata. Dette sikrer, at der kan findes forskellige gengivelser af det samme indhold, og at der oprettes links mellem relaterede ressourcer. Aggregering af sammenkædede data har potentiale til at medføre omkostningsfordele og forbedre datainteroperabiliteten på globalt plan, og Europeana Common Culture-projektet undersøgte muligheden for at anvende sådanne sammenkædede data til aggregering.
Europeana anvender allerede en skalerbar og bæredygtig model for aggregering af metadata for kulturarvssektoren. Aggregering af sammenkædede data vil betyde, at dataleverandører lettere vil kunne dele deres metadata med kulturarvsaggregatorer, der har gjort brug af sammenkædede data. For udbydere, der endnu ikke offentliggør sammenkædede data, vil gennemførelsen heraf med henblik på deltagelse i Europeana også give dem den fordel, at de kan bruge deres sammenkædede data til andre applikationer og med andre områder ud over kulturarven, f.eks. internetsøgemaskiner.
Samarbejde med dataleverandører
Dette pilotprojekt løb fra maj 2019 til juni 2020. Det blev koordineret af det nederlandske institut for lyd og vision (NISV) og leveret i tæt samarbejde med det nederlandske digitale kulturarvsnetværk (NDE), der støttede projektet ved at levere viden, software og infrastruktur til at køre testene. Pilotprojektet omfattede tre typer deltagere i Europeana-økosystemet: dataleverandører, aggregatorer og Europeana Foundation. Tolv dataleverandører tilsluttede sig pilotprojektet, men ikke alle var fuldt ud klar over de tekniske udfordringer, som denne nye tilgang ville medføre. Fire af udbyderne var ikke i stand til at levere et datasæt som sammenkædede data, og to andre udbydere leverede datasæt med utilstrækkelige data til aggregering i Europeana.
I de seks vellykkede tilfælde havde fem udbydere allerede intern viden eller en eksisterende gennemførelse af sammenkædede data, og for det første var det deres første indsats med at offentliggøre sammenkædede data. Vores konklusion er, at der er stor interesse for at implementere sammenkædede data blandt dataleverandører. Det kræver dog betydelige ressourcer, når en organisation ikke har nogen tidligere erfaring.
Pilotresultater
Pilotprojektet anvendte en tilgang til sammenkædet dataaggregering baseret på to specifikationer for levering af et sammenkædet datasæt til Europeana. Disse havde tidligere været en succes for et mindre pilotprojekt i projektet "Rise of Literacy".
Den første specifikation er, at metadata på datasætniveau bør leveres ved hjælp af velkendte ordforråd. Det omfatter de typer datasætdistributioner, som dataleverandører kan bruge, og de nødvendige metadata for hver.
En anden specifikation omhandler anvendelsen af sammenkædede data fra Schema.org til beskrivelse af kulturarvsgenstande i overensstemmelse med kravene i Europeana og Europeana Data Model (EDM). I øjeblikket understøtter Europeana kun indtagelse af metadata i EDM. Forsøg med at anvende Schema.org på metadatabeskrivelser af kulturarvsgenstande har imidlertid vist, at det kan levere data af god kvalitet, som er i stand til at opfylde kravene i Europeana. Denne specifikation giver et generelt niveau af vejledning til brug af Schema.org metadata, der efter konvertering til EDM, vil resultere i metadata, der er egnet til aggregering af Europeana.
Dette pilotprojekt resulterede også i et værktøjssæt til sammenkædet dataaggregering, der er udformet til brug for Europeana-aggregatorer og aggregatorer af andre lignende netværk. Selv om værktøjssættets funktionalitet er skræddersyet til EDM, kan aggregatorer, der bruger andre datamodeller, tilføje deres egne konverteringer og valideringer ved hjælp af de standarder, der er implementeret af værktøjssættet. Værktøjssættet er baseret på Docker-beholdere, som bevarer værktøjets tekniske uafhængighed, hvilket gør løsningen bærbar til forskellige miljøer og skalerbar, hvilket giver mulighed for at anvende værktøjssættet til små eller store samlinger. Værktøjssættet og dets kildekode findes i Github.
Fremtidigt arbejde
Der er identificeret en række områder for det fremtidige arbejde. Dataleverandører vil drage fordel af værktøjer til udarbejdelse af deres sammenkædede data. De valideringsværktøjer, der er implementeret i værktøjssættet, kan også anvendes til oprettelse af tjenester for dataleverandører, så de kan kontrollere gyldigheden af deres data på tidligere stadier af sammenkædet dataoffentliggørelse. Et første skridt i denne retning blev taget ved at teste de aggregerede sammenkædede data ved hjælp af Europeana Metis Sandbox. En anden arbejdslinje, der starter i 2021, vil fokusere på komponenter til interoperabilitet og integration af værktøjssættet i aggregatorernes systemer. Dette arbejde vil blive koordineret af The Netherlands Institute for Sound and Vision i det hollandske nationale projekt Digitale Collectie.
For at finde ud af mere om sammenkædede data, se vores webinar fra oktober 2020 om LODA - Linked Open Data Aggregator, og hvis du er interesseret i emnet og gerne vil have flere chancer for at diskutere det, kan du deltage i EuropeanaTech-fællesskabet.
Dette indlæg blev redigeret den 21. januar 2021 for at opdatere detaljerne om det fremtidige planlagte arbejde på dette område.
