Agregowanie powiązanych danych
Powiązane dane to sposób publikowania ustrukturyzowanych danych w sieci, który umożliwia łączenie i wzbogacanie metadanych. Dzięki temu można znaleźć różne reprezentacje tej samej treści oraz linki między powiązanymi zasobami. Agregacja powiązanych danych może przynieść korzyści pod względem kosztów i poprawić interoperacyjność danych w skali globalnej, a w ramach projektu Europeana Common Culture zbadano wykonalność wykorzystania takich powiązanych danych do agregacji.
Europeana stosuje już skalowalny i zrównoważony model agregacji metadanych dla sektora dziedzictwa kulturowego. Agregacja powiązanych danych oznaczałaby, że dostawcy danych mogliby łatwiej udostępniać swoje metadane agregatorom dziedzictwa kulturowego, którzy korzystali z powiązanych danych. W przypadku dostawców, którzy nie publikują jeszcze powiązanych danych, wdrożenie ich do udziału w Europeanie zapewniłoby im również możliwość wykorzystywania powiązanych danych do innych zastosowań oraz do innych dziedzin poza dziedzictwem kulturowym, takich jak wyszukiwarki internetowe.
Współpraca z dostawcami danych
Pilotaż ten trwał od maja 2019 r. do czerwca 2020 r. Projekt był koordynowany przez Niderlandzki Instytut Dźwięku i Wizji (NISV) i realizowany w ścisłej współpracy z holenderską siecią dziedzictwa cyfrowego (NDE), która wspierała projekt, dostarczając wiedzę, oprogramowanie i infrastrukturę do przeprowadzania testów. W projekcie pilotażowym uczestniczyły trzy rodzaje uczestników ekosystemu Europeana: dostawców danych, agregatorów i Fundacji Europeana. Do projektu pilotażowego dołączyło dwunastu dostawców danych, ale nie wszyscy byli w pełni świadomi wyzwań technicznych, jakie niesie ze sobą to nowatorskie podejście. Czterech dostawców nie było w stanie dostarczyć zbioru danych jako powiązanych danych, a dwóch innych dostawców dostarczyło zbiory danych o niewystarczających danych do agregacji w Europeanę.
W sześciu udanych przypadkach pięciu dostawców posiadało już wiedzę wewnętrzną lub już wdrożyło powiązane dane, a w przypadku jednego z nich był to pierwszy wysiłek związany z publikacją powiązanych danych. Nasz wniosek jest taki, że istnieje duże zainteresowanie wdrażaniem powiązanych danych wśród dostawców danych. Wymaga to jednak znacznego poziomu zasobów, gdy organizacja nie ma żadnego wcześniejszego doświadczenia.
Wyniki projektu pilotażowego
W ramach projektu pilotażowego zastosowano podejście do powiązanej agregacji danych w oparciu o dwie specyfikacje dotyczące dostarczania powiązanego zbioru danych dla Europeany. Wcześniej były one skuteczne w przypadku projektu pilotażowego na małą skalę w ramach projektu „Rozwój umiejętności czytania i pisania”.
Pierwszą specyfikacją jest to, że metadane na poziomie zbioru danych powinny być dostarczane przy użyciu dobrze znanych słowników. Obejmuje rodzaje dystrybucji zbiorów danych, z których mogą korzystać dostawcy danych, oraz wymagane metadane dla każdego z nich.
Druga specyfikacja dotyczy wykorzystania danych powiązanych ze Schema.org do opisu obiektów dziedzictwa kulturowego zgodnie z wymogami Europeany i modelu danych Europeany (EDM). Obecnie Europeana obsługuje tylko przyjmowanie metadanych w EDM. Eksperymenty dotyczące stosowania Schema.org do opisów metadanych obiektów dziedzictwa kulturowego wykazały jednak, że może on dostarczyć danych dobrej jakości, które są w stanie spełnić wymagania Europeany. Niniejsza specyfikacja zapewnia ogólny poziom wytycznych dotyczących korzystania z metadanych Schema.org, które po konwersji do EDM będą skutkować metadanymi odpowiednimi do agregacji przez Europeanę.
W wyniku tego projektu pilotażowego powstał również zestaw narzędzi do powiązanej agregacji danych, który został zaprojektowany do użytku przez agregatorów Europeany i agregatorów innych podobnych sieci. Chociaż funkcjonalność zestawu narzędzi jest dostosowana do EDM, agregatory korzystające z innych modeli danych mogą dodawać własne konwersje i walidacje przy użyciu standardów zaimplementowanych przez zestaw narzędzi. Zestaw narzędzi oparty jest na kontenerach Docker, które zachowują techniczną niezależność swoich narzędzi, dzięki czemu rozwiązanie jest przenośne w różnych środowiskach i skalowalne, dając możliwość zastosowania zestawu narzędzi do małych lub dużych kolekcji. Zestaw narzędzi i jego kod źródłowy są dostępne w Github.
Przyszłe prace
Zidentyfikowano szereg obszarów do przyszłych prac. Dostawcy danych skorzystaliby z narzędzi do przygotowywania powiązanych ze sobą danych. Narzędzia walidacyjne wdrożone w zestawie narzędzi mogą być również wykorzystywane do tworzenia usług dla dostawców danych, umożliwiając im sprawdzenie ważności ich danych na wcześniejszych etapach powiązanej publikacji danych. Pierwszym krokiem w tym kierunku było przetestowanie zagregowanych powiązanych danych za pomocą piaskownicy Europeana Metis. Druga linia prac, która rozpocznie się w 2021 r., skupi się na elementach interoperacyjności i integracji zestawu narzędzi z systemami agregatorów. Prace te będą koordynowane przez Holenderski Instytut Dźwięku i Wizji w ramach holenderskiego krajowego projektu Digitale Collectie.
Aby dowiedzieć się więcej na temat powiązanych danych, obejrzyj nasz webinar z października 2020 r. na temat LODA - Linked Open Data Aggregator, a jeśli jesteś zainteresowany tym tematem i chciałbyś mieć więcej szans na jego omówienie, dołącz do społeczności EuropeanaTech.
Ten post został edytowany 21 stycznia 2021 r. w celu zaktualizowania szczegółów przyszłych planowanych prac w tym obszarze.
