Od januarja 2015 je Europeana ena od infrastruktur Evropske unije za digitalne storitve. EU jih ima več, med drugim varnejši internet za otroke, elektronske zdravstvene storitve in upravljanje podjetij. Europeana DSI predstavlja in zagotavlja spletni dostop do evropske kulturne in znanstvene dediščine prek platforme Europeana Collections ter podpira ustanove za varstvo kulturne dediščine pri prilagajanju tej digitalni dobi.
Evropska komisija je lani objavila oceno Europeane, v kateri so opisani naši dosežki in nekatera področja, na katera se je treba osredotočiti. V tej seriji si bomo ogledali nekatere dejavnosti Europeane DSI, ki so bile v oceni obravnavane kot prednostne, da boste bolje razumeli prizadevanja in izzive, s katerimi se trenutno ukvarjamo.
Jezik, ki ga govorite, ne bi smel biti ovira pri iskanju želenih vsebin v zbirkah Europeane, vendar je zdaj morda pravi. Ugotovite, kaj počnemo, da bi to popravili.
Zbirke Europeana vsebujejo gradivo iz galerij, knjižnic, arhivov in muzejev v vseh 28 državah članicah EU - in še več. Na spletišču lahko krmarite v 27 jezikih, elemente, opisane v vašem jeziku, pa lahko preprosto poiščete. Toda stvari postanejo bolj zapletene, če želite videti elemente, ki se ujemajo z vašim iskanjem, vendar so opisani v drugem jeziku.
Skupno se za opis zbirk uporablja 37 jezikov. Vendar pa več kot polovica vsega gradiva (57 %) uporablja enega od samo petih jezikov - angleščino, nemščino, nizozemščino, norveščino ali francoščino.
Ustvarjanje elementa, opisanega v enem jeziku, v rezultatih ali povezanem gradivu, ko ga iščete v drugem jeziku, ni enostavno. Vemo, da nas čaka še dolga pot, vendar so pozitivne spremembe na tem področju ena od naših prednostnih nalog.
Naš cilj
Želimo, da ljudje najdejo, kar iščejo – tudi če ne uporabljajo jezika, v katerem je opisan njihov ciljni element.
Želimo povečati možnosti, da iskanje nečesa v enem jeziku prinese rezultate, ki ustrezajo vašim merilom v drugem jeziku.
Izzivi
Samodejno prevajanje se izboljšuje, vendar ni brezhibno, kot boste videli, če ste kdaj uporabili spletno orodje, kot je Google Translate. Pri zbirkah Europeana so se pojavili dodatni zapleti. Ne osredotočamo se na prevajanje določenega jezika v drug jezik. Delamo z zbirkami, opisanimi v 37 jezikih, in jih poskušamo povezati z iskalnimi izrazi, ki bi lahko prišli v katerem koli jeziku. Poleg tega metapodatki niso kot naravni jezik s polnimi stavki in predvidljivo slovnico; pogosto je predstavljen v kratkih stavkih ali celo posameznih besedah, kar pomeni, da je težko najti kontekst, potreben za natančen prevod. Še ena plast kompleksnosti je dejstvo, da so lahko uporabljeni izrazi zelo specifični - morda so videti kot običajen izraz, vendar imajo drugačen pomen, kadar se uporabljajo v kontekstu opisovanja digitalnega kulturnega gradiva.
Avtomatizirani procesi lahko delujejo le, če vsebujejo pravilne in ustrezne informacije. To se sliši očitno, vendar se, kot smo videli v prejšnjih objavah v tej seriji, informacije, posredovane Europeani, zelo razlikujejo glede na globino in kakovost.
Da bi lahko karkoli prevedli, moramo vedeti, v katerem jeziku je na voljo izvirni element. Naši sistemi ne bodo ugibali. Zato vsak element (kot sta naslov in opis) potrebuje jezikovni označevalec. To je še ena raven informacij, ki jih morajo zagotoviti ustanove za varstvo kulturne dediščine.
Kaj počnemo
Nove inovacije
Letos smo revidirali standard kakovosti Europeana Publishing Framework, da bi poleg obstoječih standardov za vsebino vključili tudi standarde za metapodatke. Zdaj spodbuja ljudi, ki delajo na metapodatkih, da prevedejo elemente, kot so naslovi, v več jezikov in vključijo kontekst, kot so krajevna imena - ki so sama večjezična - iz kontekstualnih besednjakov (glej točko spodaj). Okvir spodbuja tudi uporabo teh pomembnih jezikovnih oznak, da se pokaže, kateri jezik se uporablja. To je ugibanje in pomeni, da se lahko izvajajo bolj samodejni postopki povezovanja in prevajanja.
Poleg strokovnega znanja fundacije Europeana in mrežnega združenja se zanašamo na delo drugih, da bi izboljšali večjezičnost v zbirkah Europeane. V preteklem letu smo izvedli pilotni projekt z ekipo eTranslation - še en projekt DSI, ki ga financira Evropska unija. Zdaj nadgrajujemo ta pilotni projekt z nadaljnjimi eksperimentalnimi dejavnostmi, da bi izkoristili potencial projekta za samodejno prevajanje za Europeano.
Tekoče dejavnosti
Ko je fraza umeščena v pravi kontekst, jo je veliko lažje prevesti. Še naprej uporabljamo obogatitev metapodatkov, da bi zagotovili več konteksta za gradivo, ki ga najdete v zbirkah Europeana. Naša prizadevanja v zvezi s tem vključujejo uporabo „kontekstualnih besednjakov“, zlasti tistih, ki so na voljo kot povezani odprti podatki. Ti podatkovni nizi nam dajejo dodatne podrobnosti, kot so večjezične oznake, prevodi ključnih konceptov ali različne različice imen za ljudi in kraje. Tako bodo ljudje lažje iskali in našli predmete v zbirkah Europeane. Slovarje lahko uporabljajo ponudniki podatkov ali Europeana kot del različnih (pol)avtomatskih postopkov obogatitve metapodatkov.
Evropa je večjezična. Biti morava tudi midva. Zahvaljujemo se našim partnerjem in prijateljem, da so nam pomagali prevesti pomembne elemente, kot so okvir za objavljanje Europeane in izjave o pravicah, ki jih uporablja Europeana (informacije, ki vam povedo, kaj lahko storite z izdelkom, ki ga najdete na Europeani, npr. ali je zaščiten z avtorskimi pravicami ali v javni domeni?), v več jezikov. Doslej so izjave o pravicah imele sedem prevodov, na poti pa jih je bilo še šest.
Spletišče Europeana Collections je na voljo v 27 jezikih, letos pa smo izdali novo razstavo Dediščina v nevarnosti v sedmih jezikih.
Kaj je treba paziti na...
Večjezičnost Europeane je prednostna naloga in tema dvodnevnega dogodka, ki bo potekal oktobra letos v času finskega predsedovanja Svetu EU. Na dogodku se bosta fundacija Europeana in finsko ministrstvo za izobraževanje in kulturo osredotočila na potrebe, pričakovanja in možnosti za večjezičnost na področju digitalne kulturne dediščine.
Tudi ti lahko pomagaš. S partnerji organiziramo dogodke „Transcribathon“, na katerih povabimo vse, da se jim pridružijo (bodisi doma na spletu bodisi na fizičnem dogodku), in vpišemo vsebino pogosto ročno napisanih besedilnih dokumentov, da jih je nato mogoče lažje dostopati in iskati ter jih strojno prevesti. V zadnjem letu je bilo v sodelovanju z ustanovami za varstvo kulturne dediščine po vsej Evropi (Nemčija, Italija, Belgija, Avstrija, Romunija) organiziranih pet transkriptatonov, prepisanih pa je bilo skoraj 3000 dokumentov, povezanih s prvo svetovno vojno.
Izvedite več
Več informacij o naših samodejnih obogatitvah ali dejavnosti Evropske unije eTranslation.
Če vas zanimajo podrobne informacije o jezikovnem elementu okvira za založništvo Europeana, si lahko ogledate tudi vodnik za založništvo Europeana, v katerem je natančno opisano, kaj se zahteva pri pošiljanju podatkov Europeani.
EuropeanaTech si je prizadevala na področju večjezičnosti, glej na primer najboljše prakse za večjezični dostop in različne predstavitve o reševanju jezikovnih vprašanj na zadnji konferenci EuropeanaTech.
S sodelovanjem na spletišču Transcribathon.eu prispevajte k večjezičnosti Europeane. Tukaj boste našli navodila za začetek v angleščini, francoščini in nemščini ter informacije o naših naslednjih dogodkih.
