Europeana Tłumacz
Projekt eTranslation CEF Telecom Europeana Translate ma na celu wzmocnienie powiązań między infrastrukturą eTranslation a wspólną europejską przestrzenią danych na potrzeby dziedzictwa kulturowego, wdrażaną w ramach inicjatywy Europeana, z korzyścią dla obu stron. Z jednej strony projekt ma na celu poprawę użyteczności zasobów dziedzictwa kulturowego poprzez wzbogacenie zbiorów danych dotyczących dziedzictwa kulturowego o wielojęzyczne metadane. Z drugiej strony zwiększa zasoby językowe udostępniane otwarcie za pośrednictwem europejskiej koordynacji zasobów językowych za pomocą metadanych pochodzących z milionów obiektów dziedzictwa kulturowego, które zostały starannie wybrane, wyczyszczone i znormalizowane, tak aby można je było wykorzystać do celów szkoleniowych.
W tym celu Europeana Translate opracowała i wdrożyła narzędzia do tłumaczenia maszynowego dostosowane do potrzeb sektora dziedzictwa kulturowego. Narzędzia te są wykorzystywane do tłumaczenia metadanych ponad 25 mln rekordów dostępnych obecnie za pośrednictwem infrastruktury Europeany z 22 języków urzędowych UE na język angielski, co poprawia wielojęzyczność udostępnianą użytkownikom.
W trakcie projektu partnerzy przeszkolili zestaw narzędzi tłumaczeniowych dostarczonych przez partnera Pangeanic z wybranymi metadanymi z infrastruktury Europeany, w tym danymi dwujęzycznymi i jednojęzycznymi, a także wielojęzycznymi słownikami. Uwzględniono również dodatkowe dane wybrane ze strony internetowej służącej do gromadzenia danych w ramach OPUS w odniesieniu do języków, które nie były wystarczająco reprezentowane. Przeprowadzono szereg eksperymentów, aby wybrać najlepszą kombinację danych treningowych i konfiguracji silników dla każdego języka. Dzięki podziałowi danych między zestawy szkoleń i testów przeprowadzono automatyczną ocenę opartą na standardowych wskaźnikach (takich jak BLEU i TER) dla wszystkich par językowych. Wyniki wskazują na znaczną poprawę w porównaniu z ogólnymi modelami Pangeanic (przed szkoleniem w domenie) i eTranslation DSI dla większości języków.
Ocena tłumaczenia automatycznego przez ekspertów
Tłumaczenia automatyczne zostały również szeroko ocenione przez lingwistów i ekspertów ds. dziedzictwa kulturowego. Oceniający zostali poproszeni o ocenę automatycznych tłumaczeń na język angielski w skali od 0 do 100, biorąc pod uwagę takie aspekty, jak płynność (poprawność gramatyczna), dokładność (ogólne znaczenie) i adekwatność (właściwe stosowanie terminologii). Poproszono je również o przekazanie dodatkowych informacji zwrotnych, w tym o zgłaszanie istotnych i powtarzających się błędów. Za pośrednictwem platformy CrowdHeritage zorganizowano trzy kampanie crowdsourcingowe w celu zaangażowania członków sektora dziedzictwa kulturowego. Ogólnie rzecz biorąc, w badaniach tych wzięło udział 44 ekspertów lingwistów i 29 specjalistów ds. dziedzictwa kulturowego, którzy przyznali dość wysokie oceny (ponad 80 %) w przypadku większości z 22 języków.
Wyniki uzyskane w wyniku oceny przez człowieka dostarczyły nam informacji na temat zachowania maszyn tłumaczeniowych dla różnych języków. Dogłębna analiza statystyczna przypisanych ocen od ludzi, w korelacji z automatycznymi wynikami zaufania obliczonymi przez silniki tłumaczenia maszynowego, pozwoliła nam określić odpowiednie progi jakościowe dla publikowania tłumaczeń z różnych języków na infrastrukturę Europeany.
Korzyści dla użytkowników i instytucji dziedzictwa kulturowego
Infrastruktura Europeany wykorzystuje mechanizmy tłumaczeniowe do tworzenia, indeksowania, udostępniania i wyświetlania automatycznych tłumaczeń metadanych w języku angielskim, co pozwoli ludziom lepiej odkrywać, analizować i ponownie wykorzystywać materiały.
Pozytywny wpływ tych prac potwierdzono w ankiecie dotyczącej oceny skutków przeprowadzonej przez 27 lingwistów i 18 ekspertów ds. dziedzictwa kulturowego. Na pytanie o wartość dodaną, jaką automatyczne tłumaczenia na język angielski mogą wnieść do wyszukiwania i wyświetlania obiektów dziedzictwa kulturowego na stronie internetowej Europeany, obie społeczności uznały to za ważne. Poinformowali również, że docenili oczekiwaną zwiększoną liczbę wyników wyszukiwania, które obejmowałyby elementy dziedzictwa kulturowego, które nie są obecnie zwracane podczas wyszukiwania w języku angielskim: 83,4 % i 62,9 % ekspertów ds. dziedzictwa kulturowego i lingwistów uznało tę poprawę za cenną.
Ponadto mechanizmy tłumaczeniowe utworzone w ramach projektu mogą być przydatne dla dostawców danych, którzy chcą przetłumaczyć metadane swoich zbiorów na język angielski, poprawiając dostępność swoich zbiorów. Użytkownicy platformy agregacji MINT mogą bezpośrednio korzystać z istniejącego powiązania API z silnikami, natomiast instytucje dziedzictwa kulturowego dysponujące wiedzą techniczną mogą korzystać z łatwo wdrażalnych mechanizmów tłumaczenia maszynowego udostępnionych publicznie w repozytorium ELG. Wszyscy eksperci ds. dziedzictwa kulturowego, którzy wzięli udział w ankiecie, zadeklarowali, że rozważą wykorzystanie narzędzi Europeana Translate do wzbogacenia zbiorów swojej organizacji o tłumaczenia automatyczne w celu zwiększenia wykrywalności.
Europeana Translate Event - jak tłumaczenie maszynowe & wielojęzyczny dostęp wpływa na dziedzictwo kulturowe
Chcesz dowiedzieć się więcej o projekcie Europeana Translate, jego metodologii i wynikach? Czy chcieliby Państwo również pogłębić swoją wiedzę na temat najnowocześniejszych technologii tłumaczenia maszynowego i sposobów ich zastosowania w sektorze dziedzictwa kulturowego?
Następnie dołącz do nas na wydarzeniu Europeana Translate Event – How machine translation & multilingual access impacts cultural heritage [W jaki sposób tłumaczenie maszynowe i wielojęzyczny dostęp wpływają na dziedzictwo kulturowe]. Jest to wydarzenie online, które odbędzie się 13 kwietnia 2023 r. w godz. 14.00–17.00 czasu środkowoeuropejskiego. Usłyszysz, jak partnerzy projektu szczegółowo wyjaśniają metodologię i wyniki uzyskane w ciągu tych dwóch lat pracy. Omówione zostaną również podobne projekty, zawsze krytycznie uwzględniające znaczenie zautomatyzowanego tłumaczenia danych/metadanych dotyczących dziedzictwa kulturowego wraz z refleksjami na temat przyszłych kroków, użyteczności i wyzwań związanych z technologią sztucznej inteligencji dla sektora dziedzictwa kulturowego.
