Иновативно агрегиране на метаданни в Europeana чрез свързани данни

Публикувано на 15 декември 2020 г. от

Nuno Freire (Europeana Foundation)

Обобщаване на свързани данни

Свързаните данни са начин за публикуване на структурирани данни в интернет, който позволява метаданните да бъдат свързани и обогатени. Това гарантира, че могат да се намерят различни представяния на едно и също съдържание и да се направят връзки между свързаните ресурси. Обобщаването на свързани данни има потенциала да донесе ползи по отношение на разходите и да подобри оперативната съвместимост на данните в световен мащаб, а проектът Europeana Common Culture проучи осъществимостта на използването на такива свързани данни за обобщаване.

Europeana вече прилага мащабируем и устойчив модел за обобщаване на метаданни за сектора на културното наследство. Обобщаването на свързани данни би означавало, че доставчиците на данни ще могат по-лесно да споделят своите метаданни с агрегаторите на културно наследство, които са използвали свързани данни. За доставчиците, които все още не публикуват свързани данни, въвеждането им за участие в Europeana би им осигурило и възможността да използват свързаните с тях данни за други приложения, както и за други области освен културното наследство, като например интернет търсачките.

Работа с доставчици на данни

Този пилотен проект се проведе от май 2019 г. до юни 2020 г. Тя беше координирана от Нидерландския институт за звук и визия (NISV) и предоставена в тясно сътрудничество с Нидерландската мрежа за цифрово наследство (NDE), която подкрепи проекта, като предостави знания, софтуер и инфраструктура за провеждане на тестовете. Пилотният проект включваше три вида участници в екосистемата на Europeana: доставчици на данни, агрегатори и фондация Europeana. Дванадесет доставчици на данни се присъединиха към пилотния проект, но не всички от тях бяха напълно наясно с техническите предизвикателства, до които ще доведе този нов подход. Четири от доставчиците не са били в състояние да предоставят набор от данни като свързани данни, а двама други доставчици са предоставили набори от данни с недостатъчни данни за агрегиране в Europeana.

В шестте успешни случая пет доставчици вече са разполагали със собствени знания или със съществуващо прилагане на свързани данни, а за един от тях това е било първото усилие за публикуване на свързани данни. Нашето заключение е, че има голям интерес към въвеждането на свързани данни сред доставчиците на данни. Това обаче изисква значително равнище на ресурси, когато дадена организация няма предишен опит.

Резултати от пилотния проект

Пилотният проект приложи подход за свързано агрегиране на данни въз основа на две спецификации за предоставяне на свързан набор от данни за Europeana. Преди това те са били успешни за малък пилотен проект в рамките на проекта „Възход на грамотността“.

Първата спецификация е, че метаданните на равнище набор от данни следва да се предоставят чрез използване на добре познати речници. Тя включва видовете разпределения на набори от данни, които доставчиците на данни могат да използват, и необходимите метаданни за всеки от тях.

Във втора спецификация се разглежда използването на свързани данни от Schema.org за описание на обекти на културното наследство в съответствие с изискванията на Europeana и модела на данни на Europeana (EDM). Понастоящем Europeana поддържа само поглъщането на метаданни в EDM. Експериментите за прилагане на Schema.org към описанията на метаданни на обекти на културното наследство обаче показаха, че той може да осигури данни с добро качество, които са в състояние да изпълнят изискванията на Europeana. Тази спецификация предоставя общо ниво на насоки за използване на метаданните на Schema.org, които след преобразуване в EDM ще доведат до метаданни, които са подходящи за агрегиране от Europeana.

Този пилотен проект доведе и до създаването на набор от инструменти за свързано агрегиране на данни, който е предназначен за използване от агрегаторите на Europeana и агрегаторите на други подобни мрежи. Въпреки че функционалността на набора от инструменти е пригодена за EDM, агрегаторите, използващи други модели на данни, могат да добавят свои собствени реализации и валидирания, като използват стандартите, въведени от набора от инструменти. Инструментариумът се основава на контейнери Docker, които запазват техническата независимост на своите инструменти, което прави решението преносимо за различни среди и мащабируемо, като дава възможност за прилагане на инструментариума към малки или големи колекции. Инструментариумът и неговият изходен код са достъпни в Github.

Бъдеща работа

Бяха набелязани редица области за бъдеща работа. Доставчиците на данни ще се възползват от инструменти за изготвяне на свързаните с тях данни. Инструментите за валидиране, внедрени в набора от инструменти, могат да се използват и при създаването на услуги за доставчиците на данни, което им позволява да проверяват валидността на своите данни на по-ранни етапи от свързаното публикуване на данни. Първоначалната стъпка в тази посока беше извършена чрез изпитване на обобщените свързани данни с помощта на Europeana Metis Sandbox. Втората линия на работа, започваща през 2021 г., ще се съсредоточи върху компонентите за оперативна съвместимост и интегриране на набора от инструменти в системите на агрегаторите. Тази работа ще бъде координирана от Холандския институт за звук и визия в холандския национален проект Digitale Collectie.

За да научите повече за свързаните данни, гледайте нашия уебинар от октомври 2020 г. за LODA - агрегатора на свързани отворени данни, и ако се интересувате от темата и бихте искали повече шансове да я обсъдите, присъединете се към общността на EuropeanaTech.

Тази публикация беше редактирана на 21 януари 2021 г., за да се актуализират подробностите за бъдещата планирана работа в тази област.

Иновативно агрегиране на метаданни в Europeana чрез свързани данни

Споделяне

Обобщаване на свързани данни

Работа с доставчици на данни

Резултати от пилотния проект

Бъдеща работа

Открийте свързано съдържание