Od januára 2015 je Europeana jednou z infraštruktúr digitálnych služieb Európskej únie (DSI). EÚ ich má niekoľko, iné zahŕňajú bezpečnejší internet pre deti, elektronické zdravotnícke služby a riadenie podnikov. Iniciatíva Europeana DSI predstavuje a poskytuje online prístup k európskemu kultúrnemu a vedeckému dedičstvu prostredníctvom platformy Europeana Collections a podporuje inštitúcie správy kultúrneho dedičstva pri prispôsobovaní sa tomuto digitálnemu veku.
Minulý rok Európska komisia uverejnila hodnotenie Europeany , v ktorom načrtla naše úspechy a niektoré oblasti, na ktoré sa treba zamerať v ďalšom období. V tejto sérii sa pozrieme na niektoré činnosti iniciatívy Europeana DSI, ktoré sa v hodnotení považovali za prioritu, vďaka čomu lepšie pochopíte úsilie a výzvy, na ktorých práve pracujeme.
Jazyk, ktorým hovoríte, by nemal byť prekážkou pri hľadaní toho, čo chcete v zbierkach Europeany, ale práve teraz by to mohlo byť. Zistite, čo robíme, aby sme to napravili.
Europeana Collections obsahuje materiály z galérií, knižníc, archívov a múzeí vo všetkých 28 členských krajinách EÚ. Na webovom sídle sa môžete pohybovať v 27 jazykoch a ľahko vyhľadávať položky opísané vo vašom vlastnom jazyku. Veci sa však skomplikujú, keď chcete zobraziť položky, ktoré zodpovedajú vášmu vyhľadávaniu, ale sú popísané v inom jazyku.
Celkovo sa na opis zbierok používa 37 jazykov. Viac ako polovica všetkých materiálov (57 %) však používa jeden z piatich jazykov - angličtinu, nemčinu, holandčinu, nórčinu alebo francúzštinu.
Vytvorenie položky opísanej v jednom jazyku, ktorá sa objaví vo výsledkoch alebo súvisiacom materiáli pri vyhľadávaní v inom jazyku, nie je jednoduché. Vieme, že máme pred sebou ešte dlhú cestu, ale uskutočnenie pozitívnych zmien v tejto oblasti je jednou z našich priorít.
Náš cieľ
Chceme, aby ľudia našli to, čo hľadajú – aj keď nepoužívajú jazyk, v ktorom je opísaná ich cieľová položka.
Chceme zvýšiť šance, že hľadanie niečoho v jednom jazyku prinesie výsledky, ktoré zodpovedajú vašim kritériám v inom jazyku.
Výzvy
Automatický preklad sa zlepšuje, ale nie je hlúpy, ako uvidíte, ak ste niekedy použili online nástroj, ako je Google Translate. V prípade zbierok Europeany vznikajú ďalšie komplikácie. Nesústreďujeme sa na to, aby sa jeden konkrétny jazyk preložil do iného. Pracujeme so zbierkami opísanými v 37 jazykoch a snažíme sa ich priradiť k hľadaným výrazom, ktoré by mohli prísť v akomkoľvek jazyku. Metaúdaje navyše nie sú ako prirodzený jazyk s plnými vetami a predvídateľnou gramatikou; často sa uvádza v krátkych vetách alebo dokonca jednoduchých slovách, čo znamená, že kontext potrebný na presný preklad je ťažké nájsť. Ďalšou vrstvou zložitosti je skutočnosť, že použité pojmy môžu byť veľmi špecifické - môžu vyzerať ako bežný pojem, ale majú iný význam, keď sa používajú v kontexte opisu digitálneho kultúrneho materiálu.
Automatizované procesy môžu fungovať len vtedy, keď sú kŕmené správnymi a vhodnými informáciami. Znie to očividne, ale ako sme videli v predchádzajúcich príspevkoch v tejto sérii, informácie poskytované Europeane sa značne líšia, pokiaľ ide o jej hĺbku a kvalitu.
Aby bolo možné preložiť čokoľvek, musíme vedieť, v akom jazyku je pôvodný prvok uvedený. Naše systémy nebudú hádať. Takže každý prvok (ako názov a popis) potrebuje jazykovú značku. To je ďalšia vrstva informácií, ktoré musia inštitúcie správy kultúrneho dedičstva poskytovať.
Čo robíme
Nové inovácie
Tento rok sme zrevidovali našu normu kvality, Europeana Publishing Framework, tak, aby okrem existujúcich noriem pre obsah zahŕňala aj normy pre metaúdaje. Teraz povzbudzuje ľudí, ktorí pracujú na metadátach, aby prekladali prvky, ako sú tituly, do viacerých jazykov a zahrnuli kontext, ako sú názvy miest - ktoré sú samotné viacjazyčné - z kontextových slovníkov (pozri položku nižšie). Rámec takisto podporuje používanie týchto veľmi dôležitých jazykových značiek s cieľom ukázať, ktorý jazyk sa používa. To vyvodzuje dohady a znamená, že je možné implementovať viac automatických procesov prepojenia a prekladu.
Okrem využívania odborných znalostí v rámci združenia Europeana Foundation and Network Association sa spoliehame na prácu iných s cieľom zlepšiť viacjazyčnosť v zbierkach Europeany. V minulom roku sme realizovali pilotný projekt s tímom eTranslation - ďalší projekt DSI financovaný Európskou úniou. Na tomto pilotnom projekte teraz staviame s ďalšími experimentálnymi činnosťami s cieľom využiť potenciál projektu v oblasti automatického prekladu pre Europeanu.
Prebiehajúce činnosti
Ak je fráza zasadená do správneho kontextu, je oveľa jednoduchšie ju preložiť. Naďalej používame obohacovanie metaúdajov, aby sme poskytli viac kontextu pre materiál, ktorý nájdete v zbierkach Europeany. Naše úsilie tu zahŕňa používanie „kontextových slovníkov“, najmä tých, ktoré sú k dispozícii ako prepojené otvorené údaje. Tieto súbory údajov nám poskytujú ďalšie podrobnosti, ako sú viacjazyčné štítky, preklady kľúčových pojmov alebo rôzne varianty mien pre ľudí a miesta. Ľuďom to uľahčuje vyhľadávanie a vyhľadávanie položiek v zbierkach Europeany. Slovníky môžu používať buď poskytovatelia údajov, alebo Europeana ako súčasť rôznych (polo)automatických procesov obohacovania metaúdajov.
Európa je viacjazyčná. Aj my musíme byť. Ďakujeme našim partnerom a priateľom za to, že nám pomohli preložiť dôležité prvky, ako je vydavateľský rámec Europeany a vyhlásenia o právach, ktoré Europeana používa (informácie, ktoré vám povedia, čo môžete urobiť s položkou, ktorú nájdete na Europeane, napr. autorské práva alebo verejná doména?), do viacerých jazykov. Vyhlásenia o právach majú zatiaľ sedem prekladov a ďalších šesť je na ceste.
Webová stránka Europeana Collections je k dispozícii v 27 jazykoch a tento rok sme vydali novú výstavu - Heritage at Risk - v siedmich jazykoch.
Na čo si dať pozor...
Zvýšenie viacjazyčnosti Europeany je prioritou a témou dvojdňového podujatia, ktoré sa uskutoční v októbri tohto roku počas fínskeho predsedníctva Rady EÚ. Na podujatí sa nadácia Europeana a fínske ministerstvo školstva a kultúry zamerajú na potreby, očakávania a spôsoby napredovania v oblasti viacjazyčnosti v digitálnom kultúrnom dedičstve.
Pomôcť môžete aj vy. S našimi partnermi organizujeme podujatia „Transcribathon“, ktoré pozývajú kohokoľvek, aby sa k nim pripojil (buď doma online, alebo na fyzickom podujatí), a napíšeme obsah často ručne písaných textových dokumentov tak, aby boli ľahšie prístupné a prehľadávané a aby ich bolo možné strojovo preložiť. V minulom roku sa v spolupráci s inštitúciami správy kultúrneho dedičstva v celej Európe (Nemecko, Taliansko, Belgicko, Rakúsko, Rumunsko) zorganizovalo päť prepisov a prepísalo sa takmer 3 000 dokumentov súvisiacich s prvou svetovou vojnou.
Ďalšie informácie
Viac informácií o našom automatickom obohacovaní alebo o činnosti Európskej únie v oblasti eTranslation.
A ak máte záujem o podrobné informácie o jazykovom prvku vydavateľského rámca Europeany, môžete si pozrieť aj publikačnú príručku Europeany, v ktorej sa presne uvádza, čo sa vyžaduje pri odosielaní údajov do Europeany.
EuropeanaTech vyvinula úsilie v oblasti viacjazyčnosti, pozri napríklad najlepšie postupy pre viacjazyčný prístup a rôzne prezentácie o riešení jazykových otázok na poslednej konferencii EuropeanaTech.
Pripojením sa na stránku Transcribathon.eu pomôžete zvýšiť viacjazyčnosť Europeany. Nájdete tu návody, ktoré vám pomôžu začať v angličtine, francúzštine a nemčine, ako aj informácie o našich ďalších podujatiach.
