От януари 2015 г. Europeana е една от инфраструктурите за цифрови услуги (DSI) на Европейския съюз. В ЕС има няколко от тях, други включват по-безопасен интернет за децата, електронни здравни услуги и управление на бизнеса. Europeana DSI представя и предоставя онлайн достъп до европейското културно и научно наследство чрез платформата Europeana Collections и подкрепя институциите в областта на културното наследство при адаптирането им към цифровата ера.
Миналата година Европейската комисия публикува оценка на Europeana, в която бяха очертани нашите постижения и някои области, върху които да се съсредоточим по-нататък. В тази поредица ще разгледаме някои от дейностите на Europeana DSI, които оценката счита за приоритетни, което ви дава по-добро разбиране на усилията и предизвикателствата, по които работим в момента.
Езикът, който говорите, не трябва да бъде пречка за намирането на това, което искате в колекциите на Europeana, но точно сега може да бъде. Разберете какво правим, за да поправим това.
Колекциите на Europeana съдържат материали от галерии, библиотеки, архиви и музеи във всички 28 страни-членки на ЕС. Можете да навигирате на уебсайта на 27 езика и е лесно да търсите елементи, описани на вашия собствен език. Но нещата стават по-сложни, когато искате да видите елементи, които съответстват на вашето търсене, но са описани на различен език.
Общо 37 езика се използват за описание на колекциите. Въпреки това, повече от половината от всички материали (57%) използват един от само петте езика - английски, немски, холандски, норвежки или френски.
Създаването на елемент, описан на един език, в резултатите или свързаните с тях материали, когато се търси на друг език, не е лесно. Знаем, че трябва да извървим дълъг път, но извършването на положителни промени в тази област е един от нашите приоритети.
Нашата цел
Искаме хората да намерят това, което търсят, дори ако не използват езика, на който е описан целевият им елемент.
Искаме да увеличим шансовете търсенето на нещо на един език да доведе до резултати, които отговарят на вашите критерии на друг език.
Предизвикателства
Автоматичният превод става все по-добър, но не е съвсем сигурен, както ще видите, ако някога сте използвали онлайн инструмент като Google Translate. В случая на Europeana Collections има допълнителни усложнения. Не се концентрираме върху това един конкретен език да бъде преведен на друг. Работим с колекции, описани на 37 езика, и се опитваме да ги съпоставим с думи за търсене, които могат да се появят на всеки език. Нещо повече, метаданните не са като естествения език с пълни изречения и предвидима граматика; често се представя с кратки фрази или дори с отделни думи, което означава, че е трудно да се намери контекстът, необходим за точен превод. Добавянето на друг слой на сложност е фактът, че използваните термини могат да бъдат много специфични - те могат да изглеждат като общ термин, но да имат различно значение, когато се използват в контекста на описването на цифрови културни материали.
Автоматизираните процеси могат да работят само когато се захранват с правилната и подходяща информация. Това звучи очевидно, но както видяхме в предишните публикации от тази поредица, предоставената на Europeana информация варира значително по отношение на нейната дълбочина и качество.
За да може нещо да бъде преведено, трябва да знаем на какъв език е предоставен оригиналният елемент. Системите ни няма да гадаят. Така че всеки елемент (като заглавие и описание) се нуждае от езиков маркер. Това е още едно ниво на информация, което институциите в областта на културното наследство трябва да предоставят.
Какво правим
Нови иновации
Тази година преразгледахме нашия стандарт за качество Europeana Publishing Framework, за да включим стандарти за метаданни в допълнение към съществуващите стандарти за съдържание. Сега тя насърчава хората, които работят върху метаданни, да превеждат елементи като заглавия на множество езици и да включват контекст като имена на места - които сами по себе си са многоезични - от контекстуални речници (вж. точката по-долу). Рамката също така насърчава използването на тези най-важни езикови етикети, за да се покаже кой език се използва. Това отнема догадките и означава, че могат да се внедрят по-автоматични процеси на свързване и превод.
Освен че използваме експертния опит на Фондация Europeana и Асоциацията на мрежите, разчитаме на работата на други хора за подобряване на многоезичието в колекциите на Europeana. През изминалата година осъществихме пилотен проект с екипа на eTranslation - друг проект за DSI, финансиран от Европейския съюз. Сега надграждаме този пилотен проект с допълнителни експериментални дейности, за да се възползваме от потенциала на проекта за автоматичен превод за Europeana.
Текущи дейности
Когато дадена фраза е поставена в правилния контекст, много по-лесно е тя да бъде преведена. Продължаваме да използваме обогатяването на метаданни, за да осигурим повече контекст за материалите, които намирате в Europeana Collections. Усилията ни тук включват използването на „контекстуални речници“, особено наличните като свързани отворени данни. Тези набори от данни ни дават допълнителни подробности като многоезични етикети, преводи на ключови понятия или различни варианти на имена за хора и места. Това улеснява хората при търсенето и намирането на предмети в колекциите на Europeana. Речниците могат да се използват или от доставчиците на данни, или от Europeana като част от различни (полу-)автоматични процеси за обогатяване на метаданни.
Европа е многоезична. Ние също трябва да бъдем. Благодарим на нашите партньори и приятели, че ни помогнаха да преведем на повече езици важни елементи като рамката за публикуване на Europeana и декларациите за правата, които Europeana използва (информацията, която ви казва какво можете да направите с даден елемент, който намирате в Europeana, например дали е обект на авторско право или е обществено достояние?). Досега декларациите за правата имат седем превода, а още шест са на път.
Уебсайтът на Europeana Collections е достъпен на 27 езика, а тази година пуснахме нова изложба - Heritage at Risk - на седем езика.
За какво да внимаваме...
Повишаването на многоезичието на Europeana е приоритет и предмет на двудневна проява през октомври тази година под финландското председателство на Съвета на ЕС. Фондация Europeana и финландското министерство на образованието и културата ще се съсредоточат върху нуждите, очакванията и начините за постигане на напредък по отношение на многоезичието в цифровото културно наследство.
Ти също можеш да помогнеш. С нашите партньори организираме събития „Transcribathon“, които канят всеки да се включи (или у дома онлайн, или на физическо събитие) и написваме съдържанието на често ръкописни текстови документи, така че те да могат да бъдат по-лесно достъпни и търсени и да могат да бъдат преведени машинно. През последната година бяха организирани пет транскрибатона в сътрудничество с институции за културно наследство в цяла Европа (Германия, Италия, Белгия, Австрия, Румъния) и бяха транскрибирани почти 3000 документа, свързани с Първата световна война.
Научете повече
Научете повече за нашите автоматични обогатявания или за дейността на Европейския съюз eTranslation.
Ако се интересувате от фините детайли на езиковия елемент на рамката за публикуване на Europeana, можете да видите и ръководството за публикуване на Europeana, в което се посочва точно какво се изисква при подаване на данни до Europeana.
EuropeanaTech положи усилия в областта на многоезичието, вж. например най-добрите практики за многоезичен достъп и различните презентации относно справянето с езиковите проблеми на последната конференция на EuropeanaTech.
И помогнете Europeana да стане по-многоезична, като се присъедините към Transcribathon.eu. Там ще намерите уроци, които ще ви помогнат да започнете на английски, френски и немски език, както и информация за следващите ни прояви.
