Europeana je od ledna 2015 jednou z infrastruktur digitálních služeb Evropské unie (DSI). EU jich má několik, jiné zahrnují bezpečnější internet pro děti, elektronické zdravotnické služby a řízení podniků. DSI Europeana představuje a poskytuje on-line přístup k evropskému kulturnímu a vědeckému dědictví prostřednictvím platformy Europeana Collections a podporuje instituce kulturního dědictví, které se přizpůsobují tomuto digitálnímu věku.
V loňském roce zveřejnila Evropská komise hodnocení Europeany , které nastínilo naše úspěchy a některé oblasti, na něž je třeba se zaměřit v budoucnu. V této sérii se zaměříme na některé činnosti DSI Europeany, které hodnocení považovalo za prioritu, což vám umožní lépe pochopit úsilí a výzvy, na nichž v současné době pracujeme.
Jazyk, kterým hovoříte, by neměl být překážkou při hledání toho, co chcete ve sbírkách Europeany, ale právě teď by tomu tak být mohlo. Zjistěte, co děláme pro to, abychom to napravili.
Europeana Collections obsahuje materiály z galerií, knihoven, archivů a muzeí ve všech 28 členských zemích EU - a další. Na internetových stránkách se můžete orientovat ve 27 jazycích a snadno vyhledávat položky popsané ve vašem vlastním jazyce. Věci se však zkomplikují, když chcete vidět položky, které odpovídají vašemu vyhledávání, ale jsou popsány v jiném jazyce.
K popisu sbírek se používá celkem 37 jazyků. Více než polovina všech materiálů (57 %) však používá jeden z pouhých pěti jazyků - angličtinu, němčinu, nizozemštinu, norštinu nebo francouzštinu.
Vytvoření položky popsané v jednom jazyce se objeví ve výsledcích nebo souvisejících materiálech, když je vyhledáváno v jiném jazyce, není snadné. A víme, že máme před sebou ještě dlouhou cestu, ale pozitivní změny v této oblasti jsou jednou z našich priorit.
Náš cíl
Chceme, aby lidé našli to, co hledají – i když nepoužívají jazyk, v němž je jejich cílová položka popsána.
Chceme zvýšit šance, že hledání něčeho v jednom jazyce přinese výsledky, které odpovídají vašim kritériím v jiném jazyce.
Výzvy
Automatický překlad je stále lepší, ale není spolehlivý, jak jste viděli, pokud jste někdy použili online nástroj, jako je Google Translate. V případě kolekcí Europeana Collections dochází k dalším komplikacím. Nesoustředíme se na to, aby byl jeden konkrétní jazyk přeložen do jiného. Pracujeme se sbírkami popsanými ve 37 jazycích a snažíme se je přiřadit k vyhledávaným výrazům, které by mohly být v jakémkoli jazyce. Metadata navíc nejsou jako přirozený jazyk s plnými větami a předvídatelnou gramatikou; je často prezentována krátkými frázemi nebo dokonce jedinými slovy, což znamená, že kontext potřebný pro přesný překlad je obtížné najít. Další vrstvou složitosti je skutečnost, že použité pojmy mohou být velmi specifické - mohou vypadat jako běžný termín, ale mají jiný význam, pokud se používají v kontextu popisu digitálního kulturního materiálu.
Automatizované procesy mohou fungovat pouze tehdy, jsou-li jim poskytovány správné a vhodné informace. Zní to jako samozřejmost, ale jak jsme viděli v předchozích příspěvcích v této sérii, informace poskytované Europeaně se značně liší, pokud jde o její hloubku a kvalitu.
Abychom mohli cokoli přeložit, musíme vědět, v jakém jazyce je původní prvek uveden. Naše systémy nebudou hádat. Takže každý prvek (jako název a popis) potřebuje značku jazyka. To je další vrstva informací, které musí instituce kulturního dědictví poskytovat.
Co děláme
Nové inovace
V letošním roce jsme revidovali náš standard kvality Europeana Publishing Framework tak, aby kromě stávajících standardů pro obsah zahrnoval i standardy pro metadata. Nyní povzbuzuje lidi, kteří pracují na metadatech, aby překládali prvky, jako jsou tituly, do více jazyků a zahrnuli kontext, jako jsou názvy míst - které jsou samy vícejazyčné - z kontextových slovníků (viz bod níže). Rámec rovněž podporuje používání těchto nejdůležitějších jazykových značek, které ukazují, který jazyk je používán. To bere odhady a znamená, že lze implementovat více automatických propojovacích a překladatelských procesů.
Kromě využití odborných znalostí z nadace Europeana Foundation and Network Association spoléháme na práci ostatních při zlepšování mnohojazyčnosti ve sbírkách Europeany. V uplynulém roce jsme realizovali pilotní projekt s týmem eTranslation - další projekt DSI financovaný Evropskou unií. Na tento pilotní projekt nyní navazujeme dalšími experimentálními činnostmi s cílem využít potenciál projektu v oblasti automatického překladu pro Europeanu.
Probíhající činnosti
Když je fráze dána do správného kontextu, je mnohem snazší ji přeložit. Nadále používáme obohacování metadat, abychom poskytli více kontextu pro materiál, který najdete na Europeana Collections. Naše úsilí zde zahrnuje používání „kontextových slovníků“, zejména těch, které jsou k dispozici jako otevřená propojená data. Tyto datové sady nám poskytují další podrobnosti, jako jsou vícejazyčné štítky, překlady klíčových pojmů nebo různé varianty jmen pro lidi a místa. Díky tomu mohou lidé snáze vyhledávat a vyhledávat předměty ve sbírkách Europeany. Slovníky mohou používat buď poskytovatelé dat, nebo Europeana jako součást různých (polo)automatických procesů obohacování metadat.
Evropa je mnohojazyčná. Musíme být taky. Děkujeme našim partnerům a přátelům za to, že nám pomohli přeložit důležité prvky, jako je publikační rámec Europeany a prohlášení o právech, která Europeana používá (informace, které vám říkají, co můžete dělat s položkou, kterou najdete na Europeaně, např. je chráněna autorským právem nebo je veřejně dostupná?), do více jazyků. Prohlášení o právech mají zatím sedm překladů a dalších šest je na cestě.
Internetové stránky Europeana Collections jsou k dispozici ve 27 jazycích a letos jsme vydali novou výstavu - Heritage at Risk - v sedmi jazycích.
Na co si dát pozor...
Zvýšení mnohojazyčnosti Europeany je prioritou a tématem dvoudenní akce pořádané letos v říjnu za finského předsednictví Rady EU. Na této akci se nadace Europeana a finské ministerstvo školství a kultury zaměří na potřeby, očekávání a další postup v oblasti mnohojazyčnosti v digitálním kulturním dědictví.
Ty můžeš taky pomoct. S našimi partnery pořádáme akce „Transcribathon“, které zvou kohokoli, aby se k nim připojil (buď doma on-line, nebo na fyzické akci), a zapisujeme obsah často ručně psaných textových dokumentů tak, aby k nim bylo snazší získat přístup a vyhledávat a aby mohly být strojově přeloženy. V loňském roce bylo ve spolupráci s památkovými institucemi po celé Evropě (Německo, Itálie, Belgie, Rakousko, Rumunsko) uspořádáno pět přepisů a bylo přepsáno téměř 3 000 dokumentů souvisejících s první světovou válkou.
Zjistit více
Další informace o našem automatickém obohacování nebo o činnosti Evropské unie v oblasti eTranslation.
A pokud vás zajímají podrobné informace o jazykovém prvku publikačního rámce Europeany, můžete se také podívat na publikační příručku Europeany, která přesně popisuje, co je požadováno při předkládání údajů do Europeany.
EuropeanaTech vyvinul úsilí v oblasti mnohojazyčnosti, viz například osvědčené postupy pro vícejazyčný přístup a různé prezentace o řešení jazykových otázek na poslední konferenci EuropeanaTech.
Zapojte se na stránkách Transcribathon.eu a pomozte zvýšit mnohojazyčnost Europeany. Zde najdete návody, které vám pomohou začít v angličtině, francouzštině a němčině, a také informace o našich dalších akcích.
