Samenvoegen van gekoppelde gegevens
Gekoppelde gegevens zijn een manier om gestructureerde gegevens op het web te publiceren waarmee metadata kunnen worden verbonden en verrijkt. Dit zorgt ervoor dat verschillende weergaven van dezelfde inhoud kunnen worden gevonden en koppelingen kunnen worden gemaakt tussen gerelateerde bronnen. Het samenvoegen van gekoppelde gegevens kan kostenvoordelen opleveren en de interoperabiliteit van gegevens op wereldschaal verbeteren, en in het kader van het project Europeana Common Culture is de haalbaarheid onderzocht van het gebruik van dergelijke gekoppelde gegevens voor aggregatie.
Europeana beschikt al over een schaalbaar en duurzaam aggregatiemodel voor metagegevens voor de sector cultureel erfgoed. Het samenvoegen van gekoppelde gegevens zou betekenen dat gegevensverstrekkers hun metagegevens gemakkelijker zouden kunnen delen met aankoopgroeperingen voor cultureel erfgoed die gebruik hebben gemaakt van gekoppelde gegevens. Voor aanbieders die nog geen gekoppelde gegevens publiceren, zou de uitvoering ervan voor deelname aan Europeana hen ook het voordeel bieden dat zij hun gekoppelde gegevens kunnen gebruiken voor andere toepassingen en voor andere domeinen dan cultureel erfgoed, zoals internetzoekmachines.
Werken met dataproviders
Deze pilot liep van mei 2019 tot juni 2020. Het werd gecoördineerd door het Nederlands Instituut voor Beeld en Geluid (NISV) en geleverd in nauwe samenwerking met het Nederlandse Netwerk Digitaal Erfgoed (NDE), dat het project ondersteunde door kennis, software en infrastructuur te leveren om de tests uit te voeren. Bij het proefproject waren drie soorten deelnemers aan het Europeana-ecosysteem betrokken: gegevensverstrekkers, aggregators en de Europeana Foundation. Twaalf dataproviders namen deel aan de pilot, maar niet alle waren zich volledig bewust van de technische uitdagingen die deze nieuwe aanpak met zich mee zou brengen. Vier van de aanbieders waren niet in staat om een dataset als gekoppelde gegevens te leveren, en twee andere aanbieders leverden datasets met onvoldoende gegevens voor aggregatie in Europeana.
In de zes succesvolle gevallen beschikten vijf aanbieders al over interne kennis of een bestaande implementatie van gekoppelde gegevens, en in één geval was het de eerste poging om gekoppelde gegevens te publiceren. Onze conclusie is dat er veel interesse is in het implementeren van linked data bij data providers. Het vereist echter een aanzienlijk niveau van middelen wanneer een organisatie geen eerdere ervaring heeft.
Proefresultaten
Het proefproject paste een aanpak toe voor de aggregatie van gekoppelde gegevens op basis van twee specificaties voor het leveren van een gekoppelde dataset voor Europeana. Deze waren eerder succesvol voor een kleinschalige pilot in het Rise of Literacy-project.
De eerste specificatie is dat metadata op datasetniveau moeten worden verstrekt met behulp van bekende woordenlijsten. Het omvat de soorten datasetdistributies die dataproviders kunnen gebruiken en de vereiste metadata voor elk.
Een tweede specificatie betreft het gebruik van gekoppelde gegevens van Schema.org voor de beschrijving van cultureel-erfgoedobjecten overeenkomstig de vereisten van Europeana en het Europeana Data Model (EDM). Momenteel ondersteunt Europeana alleen de inname van metadata in EDM. Experimenten met de toepassing van Schema.org op metagegevens van beschrijvingen van cultureel erfgoedobjecten hebben echter aangetoond dat het kan zorgen voor gegevens van goede kwaliteit, die kunnen voldoen aan de vereisten van Europeana. Deze specificatie biedt een algemeen niveau van richtlijnen voor het gebruik van Schema.org metadata die, na conversie naar EDM, zal resulteren in metadata die geschikt is voor aggregatie door Europeana.
Dit proefproject heeft ook geresulteerd in een toolset voor de aggregatie van gekoppelde gegevens die is ontworpen voor gebruik door Europeana-aggregators en aggregators van andere soortgelijke netwerken. Hoewel de functionaliteit van de toolset is afgestemd op het EDM, kunnen aggregators die andere gegevensmodellen gebruiken hun eigen conversies en validaties toevoegen met behulp van de normen die door de toolset zijn geïmplementeerd. De toolset is gebaseerd op Docker-containers die de technische onafhankelijkheid van zijn tools behouden, waardoor de oplossing draagbaar is voor verschillende omgevingen en schaalbaar is, waardoor de toolset kan worden toegepast op kleine of grote collecties. De toolset en de broncode is beschikbaar in Github.
Toekomstige werkzaamheden
Er is een aantal gebieden voor toekomstige werkzaamheden vastgesteld. Aanbieders van gegevens zouden baat hebben bij instrumenten voor de voorbereiding van hun gekoppelde gegevens. De valideringsinstrumenten die in de toolset worden geïmplementeerd, kunnen ook worden gebruikt bij het creëren van diensten voor gegevensaanbieders, zodat zij de geldigheid van hun gegevens in eerdere stadia van de publicatie van gekoppelde gegevens kunnen controleren. Een eerste stap in deze richting werd gezet door de geaggregeerde gekoppelde gegevens te testen met behulp van de Europeana Metis Sandbox. Een tweede werklijn die in 2021 van start gaat, zal gericht zijn op componenten voor interoperabiliteit en integratie van de toolset in de systemen van aankoopgroeperingen. Dit werk wordt gecoördineerd door het Nederlands Instituut voor Beeld en Geluid in het landelijke project Digitale Collectie.
Om meer te weten te komen over gekoppelde gegevens, bekijk ons webinar van oktober 2020 over LODA - de Linked Open Data Aggregator, en als u geïnteresseerd bent in het onderwerp en meer kansen wilt om het te bespreken, sluit u dan aan bij de EuropeanaTech-community.
Dit bericht is op 21 januari 2021 bewerkt om de details van de toekomstige geplande werkzaamheden op dit gebied bij te werken.
