Od stycznia 2015 r. Europeana jest jedną z infrastruktur usług cyfrowych Unii Europejskiej. UE ma kilka z nich, inne obejmują bezpieczniejszy internet dla dzieci, elektroniczne usługi zdrowotne i zarządzanie przedsiębiorstwami. Europeana DSI prezentuje i zapewnia dostęp online do europejskiego dziedzictwa kulturowego i naukowego za pośrednictwem platformy Europeana Collections oraz wspiera instytucje dziedzictwa kulturowego w dostosowywaniu się do ery cyfrowej.
W ubiegłym roku Komisja Europejska opublikowała ocenę Europeany, w której nakreśliła nasze osiągnięcia i niektóre obszary, na których należy się skupić w następnej kolejności. W tej serii przyjrzymy się niektórym działaniom Europeana DSI, które w ocenie uznano za priorytetowe, co pozwoli lepiej zrozumieć wysiłki i wyzwania, nad którymi obecnie pracujemy.
Język, którym się posługujesz, nie powinien być przeszkodą w znalezieniu tego, czego chcesz w kolekcjach Europeany, ale w tej chwili może być. Dowiedz się, co robimy, aby to naprawić.
Kolekcje Europeany zawierają materiały z galerii, bibliotek, archiwów i muzeów we wszystkich 28 krajach członkowskich UE - i nie tylko. Możesz poruszać się po stronie internetowej w 27 językach, a wyszukiwanie artykułów opisanych w Twoim języku jest łatwe. Ale sprawy stają się bardziej skomplikowane, gdy chcesz zobaczyć elementy, które pasują do wyszukiwania, ale są opisane w innym języku.
Łącznie do opisu zbiorów używa się 37 języków. Jednak ponad połowa wszystkich materiałów (57%) używa jednego z zaledwie pięciu języków - angielskiego, niemieckiego, holenderskiego, norweskiego lub francuskiego.
Tworzenie elementu opisanego w jednym języku pojawia się w wynikach lub powiązanych materiałach, gdy jest wyszukiwany w innym języku, nie jest łatwe. Wiemy, że przed nami jeszcze długa droga, ale wprowadzanie pozytywnych zmian w tej dziedzinie jest jednym z naszych priorytetów.
Nasz cel
Chcemy, aby ludzie znaleźli to, czego szukają – nawet jeśli nie używają języka, w którym opisana jest ich pozycja docelowa.
Chcemy zwiększyć szanse, że wyszukiwanie czegoś w jednym języku przyniesie wyniki, które odpowiadają Twoim kryteriom w innym języku.
Wyzwania
Automatyczne tłumaczenie jest coraz lepsze, ale nie jest niezawodne, jak widać, jeśli kiedykolwiek korzystałeś z narzędzia internetowego, takiego jak Tłumacz Google. W przypadku kolekcji Europeana pojawiają się dodatkowe komplikacje. Nie koncentrujemy się na tłumaczeniu jednego konkretnego języka na inny. Pracujemy nad zbiorami opisanymi w 37 językach i staramy się dopasować je do wyszukiwanych terminów, które mogą pojawić się w dowolnym języku. Co więcej, metadane nie przypominają języka naturalnego z pełnymi zdaniami i przewidywalną gramatyką; jest często przedstawiany w formie krótkich zwrotów lub nawet pojedynczych słów, co oznacza, że trudno jest znaleźć kontekst wymagany do dokładnego tłumaczenia. Kolejną warstwą złożoności jest fakt, że użyte terminy mogą być bardzo specyficzne - mogą wyglądać jak wspólny termin, ale mają inne znaczenie, gdy są używane w kontekście opisu cyfrowego materiału kulturowego.
Zautomatyzowane procesy mogą działać tylko wtedy, gdy są karmione poprawnymi i odpowiednimi informacjami. Brzmi to oczywisto, ale jak widzieliśmy we wcześniejszych postach z tej serii, informacje przekazywane Europeanie różnią się znacznie pod względem głębi i jakości.
Aby cokolwiek zostało przetłumaczone, musimy wiedzieć, w jakim języku znajduje się oryginalny element. Nasze systemy nie zgadną. Tak więc każdy element (jak tytuł i opis) potrzebuje znacznika języka. Jest to kolejna warstwa informacji, którą instytucje dziedzictwa kulturowego muszą przekazywać.
Co robimy
Nowe innowacje
W tym roku zmieniliśmy nasz standard jakości, Europeana Publishing Framework, aby uwzględnić standardy metadanych oprócz istniejących standardów dotyczących treści. Teraz zachęca ludzi, którzy pracują nad metadanymi, do tłumaczenia elementów, takich jak tytuły, na wiele języków i do włączenia kontekstu, takiego jak nazwy miejsc - które same są wielojęzyczne - ze słownictwa kontekstowego (patrz punkt poniżej). Ramy zachęcają również do korzystania z tych wszystkich ważnych znaczników językowych, aby pokazać, który język jest używany. To rozwiązuje domysły i oznacza, że można wdrożyć bardziej automatyczne łączenie i procesy tłumaczenia.
Wykorzystując wiedzę fachową z Fundacji i Stowarzyszenia Sieci Europeana, opieramy się na pracy innych osób w celu poprawy wielojęzyczności w kolekcjach Europeany. W ubiegłym roku przeprowadziliśmy projekt pilotażowy z zespołem eTranslation - kolejny projekt DSI finansowany przez Unię Europejską. Obecnie opieramy się na tym projekcie pilotażowym i prowadzimy dalsze eksperymenty z myślą o wykorzystaniu potencjału projektu w zakresie tłumaczeń automatycznych dla Europeany.
Bieżące działania
Gdy dana fraza ma odpowiedni kontekst, znacznie łatwiej jest ją przetłumaczyć. W dalszym ciągu wykorzystujemy wzbogacanie metadanych, aby zapewnić więcej kontekstu dla materiałów znajdujących się w kolekcjach Europeany. Nasze wysiłki obejmują wykorzystanie „słowników kontekstowych”, zwłaszcza tych dostępnych jako powiązane otwarte dane. Te zbiory danych dostarczają nam dodatkowych szczegółów, takich jak wielojęzyczne etykiety, tłumaczenia kluczowych pojęć lub różne warianty nazw osób i miejsc. Ułatwia to wyszukiwanie i znajdowanie przedmiotów w kolekcjach Europeany. Słowniki mogą być wykorzystywane przez dostawców danych lub przez Europeanę w ramach różnych (pół-)automatycznych procesów wzbogacania metadanych.
Europa jest wielojęzyczna. My też musimy być. Jesteśmy wdzięczni naszym partnerom i przyjaciołom za pomoc w tłumaczeniu ważnych elementów, takich jak ramy wydawnicze Europeany i oświadczenia o prawach, z których korzysta Europeana (informacje, które mówią, co można zrobić z produktem znalezionym na Europeanie, np. czy jest on objęty prawami autorskimi czy własnością publiczną?) na więcej języków. Do tej pory oświadczenia o prawach mają siedem tłumaczeń, a sześć kolejnych jest w drodze.
Strona internetowa Europeana Collections jest dostępna w 27 językach, a w tym roku opublikowaliśmy nową wystawę - Heritage at Risk - w siedmiu językach.
Na co zwrócić uwagę...
Sprawienie, by Europeana stała się bardziej wielojęzyczna, jest priorytetem i przedmiotem dwudniowego wydarzenia, które odbędzie się w październiku tego roku podczas fińskiej prezydencji w Radzie UE. Podczas wydarzenia Fundacja Europeana i fińskie Ministerstwo Edukacji i Kultury skupią się na potrzebach, oczekiwaniach i sposobach rozwoju wielojęzyczności w cyfrowym dziedzictwie kulturowym.
Ty też możesz pomóc. Wraz z naszymi partnerami organizujemy wydarzenia „Transcribathon”, które zapraszają wszystkich do udziału (w domu online lub podczas wydarzenia fizycznego) i wpisują zawartość często odręcznych dokumentów tekstowych, aby można było łatwiej uzyskać do nich dostęp i je przeszukiwać, a także aby można je było tłumaczyć maszynowo. W ubiegłym roku zorganizowano pięć transkrybatonów we współpracy z instytucjami dziedzictwa kulturowego w całej Europie (Niemcy, Włochy, Belgia, Austria, Rumunia) oraz przepisano prawie 3000 dokumentów związanych z I wojną światową.
Dowiedz się więcej
Dowiedz się więcej o naszym automatycznym wzbogacaniu lub o działalności Unii Europejskiej w zakresie eTranslation.
A jeśli jesteś zainteresowany drobnymi szczegółami elementu językowego ram wydawniczych Europeana, możesz również zapoznać się z przewodnikiem wydawniczym Europeana, w którym dokładnie opisano, co jest wymagane przy przesyłaniu danych do Europeany.
EuropeanaTech podjęła wysiłki w dziedzinie wielojęzyczności, zob. na przykład najlepsze praktyki w zakresie dostępu wielojęzycznego oraz różne prezentacje na temat rozwiązywania problemów językowych podczas ostatniej konferencji EuropeanaTech.
Dołącz do Transcribathon.eu i pomóż uczynić Europeanę bardziej wielojęzyczną. Znajdziesz tam samouczki, które pomogą Ci rozpocząć naukę w języku angielskim, francuskim i niemieckim, a także informacje o naszych kolejnych wydarzeniach.
