Linkitettyjen tietojen yhdistäminen
Linkitetty data on tapa julkaista strukturoitua dataa verkossa, joka mahdollistaa metadatan yhdistämisen ja rikastamisen. Näin varmistetaan, että samasta sisällöstä voidaan löytää erilaisia esityksiä ja linkittää toisiinsa liittyviä resursseja. Linkitettyjen tietojen yhdistäminen voi tuoda kustannushyötyjä ja parantaa tietojen yhteentoimivuutta maailmanlaajuisesti, ja Europeana Common Culture -hankkeessa tutkittiin tällaisten linkitettyjen tietojen käytön toteutettavuutta yhdistämisessä.
Europeanalla on jo käytössä skaalautuva ja kestävä metatietojen yhdistämismalli kulttuuriperintöalalle. Linkitettyjen tietojen yhdistäminen tarkoittaisi sitä, että tietojen tarjoajat voisivat helpommin jakaa metatietonsa linkitettyjä tietoja hyödyntäneiden kulttuuriperinnön aggregaattoreiden kanssa. Niiden palveluntarjoajien osalta, jotka eivät vielä julkaise linkitettyjä tietoja, niiden toteuttaminen Europeanaan osallistumista varten tarjoaisi niille myös mahdollisuuden käyttää linkitettyjä tietojaan muihin sovelluksiin ja muille aloille kuin kulttuuriperintöön, kuten Internet-hakukoneisiin.
Yhteistyö tietojen toimittajien kanssa
Pilottihanke kesti toukokuusta 2019 kesäkuuhun 2020. Sitä koordinoi Alankomaiden ääni- ja visioinstituutti (NISV), ja se toimitettiin tiiviissä yhteistyössä Alankomaiden digitaalisen perinnön verkoston (NDE) kanssa, joka tuki hanketta tarjoamalla tietoa, ohjelmistoja ja infrastruktuuria testien suorittamiseen. Pilottihankkeeseen osallistui kolme Europeana-ekosysteemin osallistujatyyppiä: tietojen toimittajat, aggregaattorit ja Europeana-säätiö. Pilottiin liittyi 12 datan tarjoajaa, mutta kaikki eivät olleet täysin tietoisia tämän uuden lähestymistavan mukanaan tuomista teknisistä haasteista. Neljä palveluntarjoajaa ei pystynyt toimittamaan data-aineistoa linkitettynä datana, ja kaksi muuta palveluntarjoajaa toimitti data-aineistoja, joiden data oli riittämätöntä, jotta ne olisi voitu yhdistää Europeanaan.
Kuudessa onnistuneessa tapauksessa viidellä palveluntarjoajalla oli jo sisäistä tietämystä linkitetyn datan käytöstä tai se oli jo käytössä, ja yhdessä tapauksessa se oli ensimmäinen yritys julkaista linkitettyjä tietoja. Johtopäätöksemme on, että datan tarjoajien keskuudessa on paljon kiinnostusta linkitetyn datan käyttöönottoon. Se vaatii kuitenkin huomattavia resursseja, jos organisaatiolla ei ole aiempaa kokemusta.
Pilottihankkeen tulokset
Pilottihankkeessa sovellettiin linkitettyjen tietojen aggregointiin lähestymistapaa, joka perustuu kahteen eritelmään linkitetyn data-aineiston tuottamiseksi Europeanaa varten. Ne olivat aiemmin olleet menestyksekkäitä pienimuotoisessa kokeilussa lukutaidon lisäämistä koskevassa hankkeessa.
Ensimmäinen täsmennys on, että tietoaineistotason metatiedot olisi toimitettava käyttämällä tunnettuja sanastoja. Se sisältää tietoaineistojen jakaumat, joita datan tarjoajat voivat käyttää, ja kustakin vaadittavat metatiedot.
Toisessa eritelmässä käsitellään Schema.org-sivustoon linkitettyjen tietojen käyttöä kulttuuriperintökohteiden kuvaamiseen Europeanan ja Europeanan tietomallin (EDM) vaatimusten mukaisesti. Tällä hetkellä Europeana tukee vain metadatan nielemistä EDM:ssä. Kokeilut Schema.orgin soveltamisesta kulttuuriperintökohteiden metatietokuvauksiin ovat kuitenkin osoittaneet, että se voi tarjota laadukasta tietoa, joka pystyy täyttämään Europeanan vaatimukset. Tässä spesifikaatiossa annetaan Schema.org-metadatan käyttöä koskevat yleiset ohjeet, jotka EDM:ksi muuntamisen jälkeen tuottavat metadataa, joka soveltuu Europeanan aggregointiin.
Pilottihankkeen tuloksena saatiin myös työkalupakki linkitettyjen tietojen yhdistämistä varten, joka on suunniteltu Europeanan aggregaattoreiden ja muiden vastaavien verkostojen aggregaattoreiden käyttöön. Vaikka työkalupakin toiminnallisuus on räätälöity EDM:lle, muita tietomalleja käyttävät aggregaattorit voivat lisätä omia konversioitaan ja validointejaan työkalupakin käyttöön ottamien standardien avulla. Työkalusarja perustuu Docker-säiliöihin, jotka säilyttävät työkalujen teknisen riippumattomuuden, jolloin ratkaisu on siirrettävissä eri ympäristöihin ja skaalattavissa, jolloin työkalusarjaa voidaan soveltaa pieniin tai suuriin kokoelmiin. Työkalusarja ja sen lähdekoodi ovat saatavilla Githubissa.
Tuleva työ
Tulevaa työtä varten on määritelty useita osa-alueita. Datan tarjoajat hyötyisivät välineistä, joilla ne voivat valmistella linkitettyjä tietojaan. Työkalupakissa käyttöön otettuja validointityökaluja voidaan käyttää myös palveluiden luomisessa datan toimittajille, jolloin ne voivat tarkistaa datansa oikeellisuuden linkitetyn datan julkaisun aikaisemmissa vaiheissa. Ensimmäinen askel tähän suuntaan toteutettiin testaamalla yhdistettyjä tietoja Europeana Metis Sandboxin avulla. Toisessa toimintalinjassa, joka alkaa vuonna 2021, keskitytään yhteentoimivuuden komponentteihin ja välineistön integrointiin aggregaattoreiden järjestelmiin. Tätä työtä koordinoi Alankomaiden ääni- ja visioinstituutti Alankomaiden kansallisessa Digitale Collectie -hankkeessa.
Lisätietoja linkitetystä datasta on lokakuun 2020 verkkoseminaarissamme LODAsta, joka on linkitetyn avoimen datan aggregaattori. Jos olet kiinnostunut aiheesta ja haluat keskustella siitä enemmän, liity EuropeanaTech-yhteisöön.
Tätä virkaa muokattiin 21. tammikuuta 2021 alan tulevan suunnitellun työn yksityiskohtien päivittämiseksi.
