Europeana on tammikuusta 2015 lähtien ollut yksi Euroopan unionin digitaalipalvelujen infrastruktuureista (DSI). EU:ssa on useita tällaisia palveluja, muun muassa turvallisempi internet lapsille, sähköiset terveyspalvelut ja yrityshallinto. Europeana DSI esittelee ja tarjoaa verkossa pääsyn Euroopan kulttuuri- ja tiedeperintöön Europeana Collections -alustan kautta ja tukee kulttuuriperintölaitoksia niiden sopeutuessa tähän digitaaliaikaan.
Euroopan komissio julkaisi viime vuonna Europeanaa koskevan arvioinnin, jossa hahmoteltiin EU:n saavutuksia ja joitakin aloja, joihin olisi keskityttävä seuraavaksi. Tässä sarjassa tarkastellaan joitakin Europeana DSI -toimia, joita arvioinnissa pidettiin ensisijaisina. Näin saadaan parempi käsitys pyrkimyksistä ja haasteista, joita parhaillaan työstämme.
Puhumasi kielen ei pitäisi estää sinua löytämästä haluamaasi Europeanan kokoelmista, mutta juuri nyt se voi olla. Ota selvää, mitä teemme asian korjaamiseksi.
Europeanan kokoelmat sisältävät aineistoa gallerioista, kirjastoista, arkistoista ja museoista kaikissa 28 EU-maassa - ja paljon muuta. Voit selata verkkosivustoa 27 kielellä, ja omalla kielelläsi kuvattuja kohteita on helppo hakea. Mutta asiat monimutkaistuvat, kun haluat nähdä kohteita, jotka vastaavat hakuasi, mutta jotka on kuvattu eri kielellä.
Kokoelmia kuvataan yhteensä 37 kielellä. Kuitenkin yli puolet kaikesta materiaalista (57 %) käyttää yhtä vain viidestä kielestä - englantia, saksaa, hollantia, norjaa tai ranskaa.
Ei ole helppoa saada yhdellä kielellä kuvattua kohdetta esiin tuloksissa tai niihin liittyvässä aineistossa, kun sitä haetaan toisella kielellä. Tiedämme, että meillä on vielä pitkä matka edessämme, mutta myönteisten muutosten tekeminen tällä alalla on yksi prioriteeteistamme.
Tavoitteemme
Haluamme, että ihmiset löytävät etsimänsä, vaikka he eivät käyttäisikään kieltä, jolla kohde on kuvattu.
Haluamme lisätä mahdollisuuksia, että etsimällä jotain yhdellä kielellä saadaan tuloksia, jotka vastaavat kriteereitäsi toisella kielellä.
Haasteet
Automaattinen kääntäminen paranee, mutta se ei ole idioottivarmaa, kuten olet nähnyt, jos olet koskaan käyttänyt Google Translaten kaltaista verkkotyökalua. Europeana-kokoelmien tapauksessa on lisätty komplikaatioita. Emme keskity siihen, että jokin tietty kieli käännetään toiselle kielelle. Työskentelemme 37 kielellä kuvattujen kokoelmien parissa ja pyrimme yhdistämään ne hakusanoihin, jotka voisivat tulla millä tahansa kielellä. Lisäksi metatiedot eivät ole kuin luonnollinen kieli, jossa on kokonaisia lauseita ja ennustettavaa kielioppia. se esitetään usein lyhyinä lauseina tai jopa yksittäisinä sanoina, mikä tarkoittaa, että tarkan käännöksen edellyttämää kontekstia on vaikea löytää. Toinen monimutkaisuuden kerros on se, että käytetyt termit voivat olla hyvin tarkkoja - ne saattavat näyttää yleiseltä termiltä, mutta niillä on erilainen merkitys, kun niitä käytetään digitaalisen kulttuuriaineiston kuvauksessa.
Automatisoidut prosessit voivat toimia vain, jos niille syötetään oikeat ja asianmukaiset tiedot. Tämä kuulostaa itsestään selvältä, mutta kuten olemme nähneet tämän sarjan aiemmissa postauksissa, Europeanalle toimitetut tiedot vaihtelevat suuresti syvyyden ja laadun suhteen.
Jotta kaikki voidaan kääntää, meidän on tiedettävä, millä kielellä alkuperäinen elementti on. Järjestelmämme eivät arvaa. Joten jokainen elementti (kuten otsikko ja kuvaus) tarvitsee kielimerkin. Tämä on toinen tietokerros, jota kulttuuriperintölaitosten on tarjottava.
Mitä me teemme
Uudet innovaatiot
Tänä vuonna tarkistimme laatustandardiamme Europeana Publishing Frameworkia sisällyttämällä siihen metatietostandardit nykyisten sisältöstandardien lisäksi. Nyt se kannustaa metatietoja käsitteleviä ihmisiä kääntämään elementtejä, kuten otsikoita, useille kielille ja sisällyttämään kontekstin, kuten paikannimet - jotka ovat itse monikielisiä - kontekstuaalisista sanastoista (ks. kohta alla). Viitekehyksessä kannustetaan myös käyttämään näitä tärkeitä kielitunnisteita sen osoittamiseksi, mitä kieltä käytetään. Tämä vie arvailut ja tarkoittaa, että automaattisempia linkitys- ja käännösprosesseja voidaan toteuttaa.
Sen lisäksi, että hyödynnämme Europeana Foundationin ja Network Associationin asiantuntemusta, luotamme muiden työhön Europeana-kokoelmien monikielisyyden parantamiseksi. Viime vuonna toteutimme eTranslation-tiimin kanssa pilottihankkeen, joka on toinen Euroopan unionin rahoittama DSI-hanke. Tämän pilottihankkeen pohjalta toteutetaan nyt lisäkokeiluja, joiden tarkoituksena on hyödyntää hankkeen automaattista käännöspotentiaalia Europeanassa.
Meneillään oleva toiminta
Kun lauseelle annetaan oikea konteksti, sen kääntäminen on paljon helpompaa. Käytämme edelleen metatietojen rikastamista tarjotaksemme enemmän kontekstia Europeanan kokoelmista löytyvälle materiaalille. Tähän sisältyy ”kontekstuaalisten sanastojen” käyttö, erityisesti avoimen linkitetyn datan muodossa saatavilla olevien sanastojen käyttö. Nämä tietoaineistot antavat meille lisätietoja, kuten monikieliset merkinnät, keskeisten käsitteiden käännökset tai ihmisten ja paikkojen erilaiset nimimuunnelmat. Tämä helpottaa Europeana Collectionsin kohteiden etsimistä ja löytämistä. Sanastoja voivat käyttää joko tiedontuottajat tai Europeana osana erilaisia (puoli)automaattisia metatietojen rikastamisprosesseja.
Eurooppa on monikielinen. Meidänkin täytyy olla. Olemme kiitollisia kumppaneillemme ja ystävillemme siitä, että he ovat auttaneet meitä kääntämään tärkeitä elementtejä, kuten Europeana Publishing Frameworkin ja Europeanan käyttämät tekijänoikeuslausekkeet (tiedot, jotka kertovat, mitä voit tehdä Europeanasta löytyvällä esineellä, esimerkiksi onko se tekijänoikeudellinen vai vapaasti käytettävissä oleva?) useammalle kielelle. Toistaiseksi oikeuksia koskevissa lausunnoissa on seitsemän käännöstä ja kuusi muuta tulossa.
Europeana Collections -verkkosivusto on saatavilla 27 kielellä, ja tänä vuonna julkaisimme uuden näyttelyn - Heritage at Risk - seitsemällä kielellä.
Mitä varoa...
Europeanan monikielisyyden lisääminen on ensiarvoisen tärkeää, ja siitä järjestetään kaksipäiväinen tapahtuma lokakuussa Suomen toimiessa EU:n neuvoston puheenjohtajana. Tapahtumassa Europeana-säätiö ja opetus- ja kulttuuriministeriö keskittyvät digitaalisen kulttuuriperinnön monikielisyyden tarpeisiin, odotuksiin ja etenemistapoihin.
Sinäkin voit auttaa. Kumppaneidemme kanssa järjestämme Transcribathon-tapahtumia, joissa kuka tahansa voi osallistua (joko kotona verkossa tai fyysisessä tapahtumassa) ja kirjoittaa usein käsin kirjoitettujen tekstiasiakirjojen sisällön, jotta ne ovat helpommin saatavilla ja haettavissa ja jotta ne voidaan kääntää koneellisesti. Viime vuonna järjestettiin viisi transkriptiota yhteistyössä kulttuuriperintölaitosten kanssa kaikkialla Euroopassa (Saksassa, Italiassa, Belgiassa, Itävallassa ja Romaniassa), ja lähes 3 000 ensimmäiseen maailmansotaan liittyvää asiakirjaa transkriptioitiin.
Lue lisää
Lue lisää automaattisesta rikastamisestamme tai Euroopan unionin eTranslation-toiminnasta.
Jos olet kiinnostunut Europeana Publishing Framework -julkaisukehyksen kieliosion tarkoista yksityiskohdista, tutustu myös Europeana Publishing Guide -julkaisuoppaaseen, jossa on tarkat tiedot siitä, mitä tietoja Europeanaan on toimitettava.
EuropeanaTech on toteuttanut toimia monikielisyyden alalla, ks. esimerkiksi monikielisen saatavuuden parhaat käytännöt ja viimeisimmässä EuropeanaTech-konferenssissa järjestetyt erilaiset kielikysymysten käsittelyä koskevat esitykset.
Osallistu Transcribathon.eu-sivustolle ja auta tekemään Europeanasta monikielisempi. Sieltä löydät opastusohjelmia, joiden avulla pääset alkuun englanniksi, ranskaksi ja saksaksi, sekä tietoa seuraavista tapahtumistamme.
