Sammanställning av länkade data
Länkade data är ett sätt att publicera strukturerade data på webben som gör att metadata kan anslutas och berikas. Detta säkerställer att olika representationer av samma innehåll kan hittas och länkar görs mellan relaterade resurser. Aggregering av länkade data har potential att medföra kostnadsfördelar och förbättra datainteroperabiliteten på global nivå, och Europeana Common Culture-projektet undersökte möjligheten att använda sådana länkade data för aggregering.
Europeana har redan en skalbar och hållbar modell för aggregering av metadata för kulturarvssektorn. Aggregering av länkade data skulle innebära att dataleverantörer lättare skulle kunna dela sina metadata med kulturarvsaggregatorer som använde länkade data. För leverantörer som ännu inte offentliggör länkade data skulle genomförandet av det för deltagande i Europeana också ge dem fördelen att de kan använda sina länkade data för andra tillämpningar och med andra områden utöver kulturarvet, såsom sökmotorer på Internet.
Arbeta med dataleverantörer
Pilotprojektet pågick från maj 2019 till juni 2020. Det samordnades av Netherlands Institute for Sound and Vision (NISV) och levererades i nära samarbete med Dutch Digital Heritage Network (NDE) som stödde projektet genom att tillhandahålla kunskap, programvara och infrastruktur för att köra testerna. Pilotprojektet omfattade tre typer av deltagare i Europeanas ekosystem: dataleverantörer, aggregatorer och Europeana Foundation. Tolv dataleverantörer anslöt sig till pilotprojektet, men inte alla var fullt medvetna om de tekniska utmaningar som detta nya tillvägagångssätt skulle medföra. Fyra av leverantörerna kunde inte leverera ett dataset som länkade data, och två andra leverantörer levererade dataset med otillräckliga data för aggregering till Europeana.
I de sex framgångsrika fallen hade fem leverantörer redan intern kunskap eller en befintlig implementering av länkade data, och i ett fall var det första gången de publicerade länkade data. Vår slutsats är att det finns ett stort intresse för att implementera länkade data bland dataleverantörer. Det kräver dock en betydande resursnivå när en organisation inte har någon tidigare erfarenhet.
Pilotresultat
Pilotprojektet tillämpade en metod för aggregering av sammanlänkade data på grundval av två specifikationer för att tillhandahålla ett sammanlänkat dataset för Europeana. Dessa hade tidigare varit framgångsrika för ett småskaligt pilotprojekt inom projektet Rise of Literacy.
Den första specifikationen är att metadata på datasetnivå bör tillhandahållas med hjälp av välkända ordförråd. Den innehåller de typer av datasetdistributioner som dataleverantörer kan använda och de nödvändiga metadata för varje.
I en andra specifikation behandlas användningen av Schema.org-länkade data för att beskriva kulturarvsföremål i enlighet med kraven i Europeana och Europeana Data Model (EDM). För närvarande stöder Europeana endast intag av metadata i EDM. Experiment med att tillämpa Schema.org på metadatabeskrivningar av kulturarvsföremål har dock visat att det kan ge data av god kvalitet, vilket kan uppfylla kraven i Europeana. Denna specifikation ger en allmän nivå av vägledning för användning av Schema.org metadata som, efter konvertering till EDM, kommer att resultera i metadata som är lämplig för aggregering av Europeana.
Pilotprojektet resulterade också i en uppsättning verktyg för sammanlänkad dataaggregering som är utformad för att användas av Europeanas aggregatorer och aggregatorer i andra liknande nätverk. Även om funktionaliteten i verktygsuppsättningen är skräddarsydd för EDM kan aggregatorer som använder andra datamodeller lägga till sina egna konverteringar och valideringar med hjälp av de standarder som implementeras av verktygsuppsättningen. Verktygsuppsättningen är baserad på Docker-behållare som bevarar verktygens tekniska oberoende, vilket gör lösningen bärbar till olika miljöer och skalbar, vilket ger möjlighet att tillämpa verktygsuppsättningen på små eller stora samlingar. Verktygsuppsättningen och dess källkod finns i Github.
Framtida arbete
Ett antal områden för framtida arbete har identifierats. Dataleverantörer skulle dra nytta av verktyg för att förbereda sina länkade data. De valideringsverktyg som införs i verktygsuppsättningen kan också användas för att skapa tjänster för dataleverantörer, så att de kan kontrollera giltigheten hos sina data i tidigare skeden av det länkade offentliggörandet av data. Ett första steg i denna riktning togs genom att testa de aggregerade länkade uppgifterna med hjälp av Europeana Metis Sandbox. En andra arbetslinje som inleds 2021 kommer att inriktas på komponenter för interoperabilitet och integrering av verktygsuppsättningen i aggregatorernas system. Detta arbete kommer att samordnas av The Netherlands Institute for Sound and Vision i det nederländska nationella projektet Digitale Collectie.
För att ta reda på mer om länkade data, titta på vårt webbseminarium från oktober 2020 om LODA - Linked Open Data Aggregator, och om du är intresserad av ämnet och vill ha fler chanser att diskutera det, gå med i EuropeanaTech-samhället.
Detta inlägg redigerades den 21 januari 2021 för att uppdatera detaljer om framtida planerat arbete på detta område.
