Monikielisen metatiedon haaste
Europeana työskentelee kokoelmien kanssa, jotka on kuvattu vähintään 37 kielellä, ja pyrkii sovittamaan ne hakusanoihin, joita voi esiintyä millä tahansa kielellä. Kaikki Europeana-verkkosivuston kokoelmien kohteet on kuvattu metatietokentissä, jotka välittävät niistä olennaisia tietoja, kuten niiden otsikon ja luojan. Nämä tiedot auttavat ihmisiä löytämään ja ymmärtämään esineitä, joista he ovat kiinnostuneita. Tällä hetkellä suurin osa tietueista sisältää termejä yhdellä kielellä, joka on tietojen toimittajien kieli. Monikielisen metadatan puute haittaa Europeanan tavoitetta tarjota laaja pääsy kokoelmaansa eri kielillä.
Monikielisyyteen puuttuminen tässä suhteessa on varsin haastavaa. Ensinnäkin metatiedot eivät ole luonnollinen kieli, jossa on täydellisiä lauseita ja ennustettavaa kielioppia. se esitetään usein lyhyinä lauseina tai jopa yksittäisinä sanoina, mikä tarkoittaa, että tarkan käännöksen edellyttämää kontekstia on vaikea löytää. Lisäksi käytetyt termit voivat olla hyvin tarkkoja; ne voivat näyttää yleiseltä termiltä, mutta niillä on erilainen merkitys, kun niitä käytetään kulttuuriperinnön yhteydessä.
Esimerkiksi kreikkalainen uskonnollinen termi, joka kuvastaa viimeistä ehtoollista, voitaisiin virheellisesti kääntää salaiseksi illalliseksi. Tämän virheellisen käännöksen - tai kokonaan englanninkielisen käännöksen puuttumisen - seuraus olisi se, että kreikankielisiä esineitä, joiden otsikko tai kuvaus viittaa tiettyyn teemaan, ei näkyisi tulosten joukossa, kun joku etsii maalauksia viimeisestä ehtoollisesta Europeanan verkkosivustolta.
Sillan rakentaminen Europeanan ja eTranslation Digital Service -yhteisöjen välille
Miten Europeana Translate -hanke toimii muiden sidosryhmien ja välineiden kanssa tähän haasteeseen vastaamiseksi?
Euroopan komission kehittämä eTranslation on kielityökalu, joka on luotu käyttämällä uusimpia tekoälyteknologioita. Se on saanut koulutusta suurista tietomääristä, joita on saatavilla sekä yrityksen sisällä että EU:n laajuisella kieliresurssien keruulla. eTranslation DSI:n käyttämässä ELRC-SHARE-tietokannassa kulttuuriperintö on aliedustettuna, minkä vuoksi nykyiset teknologiaratkaisut eivät ole yhtä hyvin varustettuja kulttuuriperintötietojen erityisten näkökohtien käsittelyyn.
Tässä yhteydessä Europeanan ja eTranslation-yhteisöjen sidosryhmien välisen yhteistyön kehittäminen on avainasemassa konekäännöstyökalujen räätälöimisessä, jotta ne voivat palvella kulttuuriperinnön alan erityistarpeita. Europeana Translate pyrkii tuomaan eTranslationin ja Europeana-yhteisöt yhteen vastaamaan molempien alojen kohtaamiin haasteisiin. Digitaalisen kulttuuriperinnön monikielisen saatavuuden parantaminen edellyttää useita toisiaan täydentäviä rooleja ja asiantuntemusta, joita Europeana Translate -hankkeen eri kumppanit palvelevat(ks. tästä).
Konekäännöskokeilut
Viime kuukausien aikana hankekumppanit ovat tehneet yhteistyötä valitakseen ja segmentoidakseen asianmukaisesti ja puhdistaakseen metatietotietueet Europeanan verkkosivustolta. Tämän jälkeen hankekumppani Pangeanic käytti näitä tietoja nykyisten yleisten kieliresurssien 12 miljoonan käännöstekstisegmentin lisäksi parantaakseen konekäännösalgoritmien tarkkuutta kulttuuriperintöä koskevaa metadataa käännettäessä.
Pangeanic suoritti useita kokeita, joissa tarkasteltiin erilaisia harjoittelutietojen yhdistelmiä. Tähän sisältyivät Europeanan kaksikielinen metadata, yhdellä kielellä metadatasta tuotettu synteettinen data ja kulttuuriperinnön alan kannalta merkitykselliset monikieliset sanastot. Vaihtoehtoisia tietolähteitä harkittiin Europeanan lisäksi myös sellaisten kielten osalta, joille on olemassa vain vähän tai ei lainkaan englanninkielisiä käännöksiä. Näiden kokeiden automaattinen arviointi vakiintuneiden mittareiden avulla antoi kumppaneille mahdollisuuden päättää laadukkaimpien automaattisten käännösten asennuksesta ja verrata niitä muiden käännöstyökalujen, kuten Google Translaten ja eTranslaten, saavuttamiin tuloksiin. Yleisesti ottaen arviointi osoittaa, että tulokset ovat parantuneet useimpien kielten geneerisiin malleihin verrattuna.
Tämän prosessin tuloksena saatuja konekäännösmoottoreita käytetään metatietojen kääntämiseen EU:n 23 virallisesta kielestä englanniksi (24. virallinen kieli). Näitä käännösmoottoreita käytetään tuottamaan automaattisia englanninkielisiä käännöksiä vähintään 25 miljoonalle metatietotietueelle Europeana-alustalla. Käännökset indeksoidaan ja asetetaan esille, mikä parantaa monikielistä käyttökokemusta Europeana-alustalla. Kun henkilö, joka etsii esineitä, jotka ovat saaneet inspiraationsa "Viimeisen ehtoollisen" uskonnollisesta teemasta, Europeana-käännöksen valmistumisen jälkeen, he voivat myös käyttää maalauksia Kreikasta, Romaniasta ja monista muista maista, jotka eivät tällä hetkellä sisälly hakutuloksiin.
Lisäksi Europeana Translate asettaa avoimesti saataville valitut ja asianmukaisesti käsitellyt kieliresurssit, jotka se on tuottanut ELRC-SHARE-tietovaraston kautta ilmaisen uudelleenkäyttölisenssin (CC0) nojalla. Näin konekäännösyhteisö voi hyödyntää avointa dataa kulttuuriperintöalan käännöspalvelujensa kouluttamisessa, mukauttamisessa ja testaamisessa.
Ihmisten mukaan ottaminen silmukkaan
Kielitieteilijät ja kulttuuriperintöalan ammattilaiset tekevät lähikuukausina kaksi täydentävää arviointia kokeiden tuottamista automaattisista käännöksistä.
Konekäännösten arviointityökalua käytetään kaikkien 23 käännöskoneen tarkkuuden ja suorituskyvyn arviointiin. Kulttuuriperinnön ammattilaisille järjestetään kolme joukkoistamiskampanjaa automaattisen kääntämisen testaamiseksi ja arvioimiseksi (tältä osin arvioitaviin kieliin kuuluvat ranska, italia ja hollanti). Kampanjat myös houkuttelevat yleisöä ja lisäävät kulttuuriperintöyhteisössä tietoisuutta automaattisten käännöspalvelujen voimasta. CrowdHeritage-alustaa käytetään automaattisten käännösten esittämiseen niiden kulttuuriperintökohteiden yhteydessä, joihin ne viittaavat.
Näiden arviointien tuloksista saadaan hyödyllistä tietoa, ja niitä käytetään määriteltäessä hyväksyttävää laatukynnystä Europeanaan tehtävien automaattisten käännösten julkaisemiselle ja niiden käytölle kulttuuriperintöorganisaatioiden omilla foorumeilla.
Lue lisää ja osallistu
Lisätietoa saat katsomalla johdantovideon, videon hankkeen ensimmäisistä tuloksista tai lukemalla Europeana Translate -arkkitehtuurista tässä asiakirjassa, joka esitellään European Association for Machine Translation 2022 -tapahtumassa. Audiovisuaali-, muoti- ja museoalan ammattilaisilla on mahdollisuus osallistua hankkeeseen auttamalla arvioimaan vuoden 2023 alussa järjestettävien niche-hankintakampanjoidemme tuloksia. Pidä silmällä Europeana Pro -tapahtumasivua saadaksesi lisätietoja.
