Europeana-käännös
eTranslation CEF Telecom -hankkeella Europeana Translate pyritään vahvistamaan yhteyksiä eTranslation-infrastruktuurin ja Europeana-aloitteessa käyttöön otetun yhteisen eurooppalaisen kulttuuriperinnön data-avaruuden välillä molempien hyödyksi. Hankkeen tavoitteena on parantaa kulttuuriperintöresurssien käytettävyyttä rikastamalla kulttuuriperintöaineistoja monikielisellä metadatalla. Toisaalta sillä parannetaan eurooppalaisen kieliresurssien koordinoinnin kautta avoimesti saatavilla olevia kieliresursseja miljoonista kulttuuriperintökohteista saatavilla metatiedoilla, jotka on valittu huolellisesti, puhdistettu ja normalisoitu siten, että niistä tulee käyttökelpoisia koulutustarkoituksiin.
Tätä varten Europeana Translate on kehittänyt ja ottanut käyttöön konekäännöstyökaluja, jotka on mukautettu kulttuuriperintöalan tarpeisiin. Välineitä käytetään Europeanan infrastruktuurin kautta tällä hetkellä saatavilla olevien yli 25 miljoonan tietueen metatietojen kääntämiseen 22:sta EU:n virallisesta kielestä englanniksi, mikä parantaa sen käyttäjille tarjottavaa monikielistä kokemusta.
Hankkeen aikana kumppanit kouluttivat kumppani Pangeanicin tarjoamia käännösmoottoreita, joissa oli valikoima Europeana-infrastruktuurista valittuja metatietoja, mukaan lukien kaksi- ja yksikieliset tiedot sekä monikieliset sanastot. OPUS-tiedonkeruusivustolta poimittuja lisätietoja harkittiin myös sellaisten kielten osalta, jotka eivät olleet riittävästi edustettuina. Useita kokeita tehtiin, jotta voitiin päättää koulutustietojen ja moottoreiden parhaasta yhdistelmästä kullekin kielelle. Kun tiedot jaettiin koulutus- ja testisarjojen kesken, kaikille kielipareille suoritettiin vakiomittareihin (kuten BLEU ja TER) perustuva automaattinen arviointi. Tulokset osoittavat huomattavaa parannusta verrattuna yleisluonteisiin pangeanisiin malleihin (ennen verkkotunnuksen sisäistä koulutusta) ja eTranslation DSI:hen useimmilla kielillä.
Ihmisasiantuntijoiden suorittama automaattisen käännöksen arviointi
Myös kielitieteilijät ja kulttuuriperintöasiantuntijat arvioivat automaattisia käännöksiä laajasti. Arvioijia pyydettiin arvioimaan automaattiset käännökset englanniksi asteikolla 0–100 ottaen huomioon sellaiset näkökohdat kuin sujuvuus (kieliopillinen oikeellisuus), tarkkuus (yleinen merkitys) ja riittävyys (terminologian asianmukainen käyttö). Heitä pyydettiin myös antamaan lisäpalautetta, muun muassa raportoimaan tärkeistä ja toistuvista virheistä. CrowdHeritage-alustan kautta järjestettiin kolme joukkoistamiskampanjaa kulttuuriperintöalan jäsenten osallistamiseksi. Kaiken kaikkiaan niihin osallistui 44 kieliasiantuntijaa ja 29 kulttuuriperintöalan ammattilaista, jotka antoivat melko korkeat arvosanat (yli 80 prosenttia) suurimmalle osalle 22 kielestä.
Ihmisen suorittaman arvioinnin tulokset antoivat meille tietoa konekäännösmoottoreiden käyttäytymisestä eri kielillä. Ihmisten antamia luokituksia koskevan perusteellisen tilastollisen analyysin ja konekäännösmoottoreiden laskemien automaattisten luotettavuuspisteiden perusteella pystyimme määrittämään asianmukaiset laatukynnykset eri kielistä Europeana-infrastruktuuriin tehtävien käännösten julkaisemiselle.
Hyödyt käyttäjille ja kulttuuriperintölaitoksille
Europeana-infrastruktuuri käyttää käännösmoottoreita metatietojen automaattisten englanninkielisten käännösten tuottamiseen, indeksointiin, jakamiseen ja näyttämiseen, minkä ansiosta ihmiset voivat paremmin löytää, analysoida ja käyttää uudelleen materiaalia.
Tämän työn myönteinen vaikutus on vahvistettu 27 lingvistijuristin ja 18 kulttuuriperintöasiantuntijan täyttämässä vaikutustenarviointikyselyssä. Kun kummaltakin yhteisöltä kysyttiin, mitä lisäarvoa automaattiset englanninkieliset käännökset voivat tuoda kulttuuriperintökohteiden hakuun ja esittämiseen Europeanan verkkosivustolla, molemmat yhteisöt pitivät sitä tärkeänä. He ilmoittivat myös arvostavansa odotettua suurempaa hakutulosten määrää, joka sisältäisi kulttuuriperintökohteita, joita ei tällä hetkellä palauteta englanninkielisen haun yhteydessä: Kulttuuriperintöalan asiantuntijoista 83,4 prosenttia ja kielitieteilijöistä 62,9 prosenttia piti tätä parannusta arvokkaana.
Lisäksi hankkeessa käyttöön otetuista käännösmoottoreista voi olla hyötyä tietojen toimittajille, jotka haluavat kääntää kokoelmiensa metatiedot englanniksi, mikä parantaa kokoelmien saavutettavuutta. MINT-aggregointialustan käyttäjät voivat hyödyntää suoraan olemassa olevia API-yhteyksiä moottoreihin, kun taas kulttuuriperintölaitokset, joilla on teknistä asiantuntemusta, voivat hyödyntää helposti käyttöön otettavia konekäännösmoottoreita, jotka ovat avoimesti saatavilla ELG-tietokannassa. Kaikki kyselyyn osallistuneet kulttuuriperintöasiantuntijat ilmoittivat harkitsevansa Europeana Translate -työkalujen käyttöä organisaationsa kokoelmien täydentämiseksi automaattisilla käännöksillä löydettävyyden parantamiseksi.
Europeana Translate Event - how machine translation & monikielinen saatavuus vaikuttaa kulttuuriperintöön
Oletko kiinnostunut oppimaan lisää Europeana Translate -hankkeesta, sen menetelmistä ja tuloksista? Haluatko myös syventää tietämystäsi uusimmasta konekäännöstekniikasta ja siitä, miten sitä voidaan soveltaa kulttuuriperintöalalla?
Tule mukaan Europeana Translate Event -tapahtumaan – How machine translation & monikielinen saatavuus vaikuttaa kulttuuriperintöön. Tämä on verkkotapahtuma, joka järjestetään 13.4.2023 klo 14.00–17.00 Keski-Euroopan aikaa. Kuulet hankekumppaneiden kertovan yksityiskohtaisesti näiden kahden vuoden aikana saavutetuista menetelmistä ja tuloksista. Lisäksi keskustellaan vastaavista hankkeista, joissa otetaan aina kriittisesti huomioon kulttuuriperintötietojen/metatietojen automatisoitujen käännösten merkitys ja pohditaan tekoälyteknologian tulevia vaiheita, käytettävyyttä ja haasteita kulttuuriperintöalalla.
