Agregácia prepojených údajov
Prepojené údaje sú spôsob publikovania štruktúrovaných údajov na webe, ktorý umožňuje prepojenie a obohatenie metaúdajov. Tým sa zabezpečí, že možno nájsť rôzne zobrazenia toho istého obsahu a prepojenia medzi súvisiacimi zdrojmi. Agregácia prepojených údajov má potenciál priniesť nákladové výhody a zlepšiť interoperabilitu údajov v celosvetovom meradle a v rámci projektu Europeana Common Culture sa skúmala uskutočniteľnosť použitia takýchto prepojených údajov na agregáciu.
Europeana už prevádzkuje škálovateľný a udržateľný model agregácie metaúdajov pre sektor kultúrneho dedičstva. Agregácia prepojených údajov by znamenala, že poskytovatelia údajov by mohli ľahšie zdieľať svoje metaúdaje s agregátormi kultúrneho dedičstva, ktorí využívali prepojené údaje. V prípade poskytovateľov, ktorí ešte nezverejňujú prepojené údaje, by ich zavedenie na účely účasti v Europeane im takisto poskytlo výhodu, že by mohli používať svoje prepojené údaje na iné aplikácie a s inými doménami okrem kultúrneho dedičstva, ako sú internetové vyhľadávače.
Spolupráca s poskytovateľmi údajov
Tento pilotný projekt prebiehal od mája 2019 do júna 2020. Koordinoval ho holandský inštitút pre zvuk a víziu (NISV) a dodal ho v úzkej spolupráci s holandskou sieťou digitálneho dedičstva (NDE), ktorá projekt podporila poskytnutím znalostí, softvéru a infraštruktúry na vykonanie testov. Pilotný projekt zahŕňal tri typy účastníkov ekosystému Europeany: poskytovatelia údajov, agregátori a nadácia Europeana. Do pilotného projektu sa zapojilo dvanásť poskytovateľov údajov, ale nie všetci si boli plne vedomí technických výziev, ktoré by tento nový prístup priniesol. Štyria poskytovatelia neboli schopní poskytnúť súbor údajov ako prepojené údaje a dvaja ďalší poskytovatelia poskytli súbory údajov s nedostatočnými údajmi na agregáciu do Europeany.
V šiestich úspešných prípadoch už päť poskytovateľov malo interné znalosti alebo existujúcu implementáciu prepojených údajov a v jednom prípade išlo o ich prvé úsilie pri zverejňovaní prepojených údajov. Náš záver je, že existuje veľký záujem o implementáciu prepojených údajov medzi poskytovateľmi údajov. Vyžaduje si to však značnú úroveň zdrojov, ak organizácia nemá žiadne predchádzajúce skúsenosti.
Pilotné výsledky
V rámci pilotného projektu sa uplatnil prístup k prepojenej agregácii údajov založený na dvoch špecifikáciách na poskytovanie prepojeného súboru údajov pre Europeanu. Tieto projekty boli predtým úspešné v rámci malého pilotného projektu Rise of Literacy.
Prvou špecifikáciou je, že metaúdaje na úrovni súboru údajov by sa mali poskytovať pomocou známych slovníkov. Zahŕňa druhy distribúcií súborov údajov, ktoré môžu poskytovatelia údajov používať, a požadované metaúdaje pre každú z nich.
Druhá špecifikácia sa zaoberá používaním prepojených údajov Schema.org na opis predmetov kultúrneho dedičstva podľa požiadaviek Europeany a dátového modelu Europeany (EDM). V súčasnosti Europeana podporuje len požitie metaúdajov v EDM. Experimenty s uplatňovaním Schema.org na opisy metaúdajov objektov kultúrneho dedičstva však ukázali, že môže poskytnúť kvalitné údaje, ktoré sú schopné splniť požiadavky Europeany. Táto špecifikácia poskytuje všeobecnú úroveň usmernení na používanie metaúdajov Schema.org, ktoré po konverzii na EDM povedú k metaúdajom, ktoré sú vhodné na agregáciu prostredníctvom Europeany.
Výsledkom tohto pilotného projektu bol aj súbor nástrojov na prepojenú agregáciu údajov, ktorý je určený na používanie agregátormi Europeany a agregátormi iných podobných sietí. Hoci je funkcia súboru nástrojov prispôsobená EDM, agregátory používajúce iné dátové modely môžu pridávať svoje vlastné konverzie a validácie pomocou noriem zavedených súborom nástrojov. Súprava nástrojov je založená na kontajneroch Docker, ktoré zachovávajú technickú nezávislosť svojich nástrojov, vďaka čomu je riešenie prenosné do rôznych prostredí a škálovateľné, čo umožňuje aplikovať súpravu nástrojov na malé alebo veľké zbierky. Súbor nástrojov a jeho zdrojový kód je k dispozícii v Github.
Budúca práca
Určilo sa niekoľko oblastí pre budúcu prácu. Poskytovatelia údajov by mali prospech z nástrojov na prípravu svojich prepojených údajov. Nástroje validácie zavedené v súbore nástrojov sa môžu použiť aj pri vytváraní služieb pre poskytovateľov údajov, čo im umožní skontrolovať platnosť ich údajov v skorších fázach uverejňovania prepojených údajov. Prvý krok v tomto smere sa uskutočnil testovaním agregovaných prepojených údajov pomocou Europeana Metis Sandbox. Druhá línia práce, ktorá sa začne v roku 2021, sa zameria na komponenty interoperability a integráciu súboru nástrojov do systémov agregátorov. Túto prácu bude koordinovať Holandský inštitút pre zvuk a víziu v holandskom národnom projekte Digitale Collectie.
Ak sa chcete dozvedieť viac o prepojených údajoch, pozrite si náš webinár z októbra 2020 o LODA – agregátore prepojených otvorených údajov. Ak máte záujem o túto tému a chceli by ste o nej diskutovať, pridajte sa ku komunite EuropeanaTech.
Tento príspevok bol upravený 21. januára 2021 s cieľom aktualizovať podrobnosti o budúcej plánovanej práci v tejto oblasti.
