W oparciu o najnowocześniejsze usługi tłumaczenia maszynowego

Opublikowano 16 listopada 2022 przez

Eirini Kaldeli (National Technical University of Athens)

Wyzwanie związane z wielojęzycznymi metadanymi

Europeana współpracuje z kolekcjami opisanymi w co najmniej 37 językach i stara się dopasować je do wyszukiwanych haseł, które mogą występować w dowolnym języku. Wszystkie pozycje w zbiorach na stronie internetowej Europeany są opisane w zestawie pól metadanych, które przekazują istotne informacje na ich temat, takie jak tytuł i twórca. Informacje te pomagają ludziom odkryć i zrozumieć obiekty, które ich interesują. Obecnie większość rekordów zawiera terminy w jednym języku – języku dostawców danych. Ten brak wielojęzycznych metadanych utrudnia realizację celu Europeany, jakim jest zapewnienie szerokiego dostępu do swoich zbiorów we wszystkich językach.

Zajęcie się kwestią wielojęzyczności w tym zakresie jest dość trudnym przedsięwzięciem. Po pierwsze, metadane nie są językiem naturalnym z pełnymi zdaniami i przewidywalną gramatyką; jest często przedstawiany w krótkich zwrotach lub nawet pojedynczych słowach, co oznacza, że trudno jest znaleźć kontekst potrzebny do dokładnego tłumaczenia. Ponadto użyte terminy mogą być bardzo szczegółowe; mogą one wyglądać jak ogólny termin, ale mają inne znaczenie, gdy są używane w kontekście dziedzictwa kulturowego.

Na przykład grecki termin religijny odzwierciedlający Ostatnią Wieczerzę może być błędnie przetłumaczony jako Tajna Kolacja. Reperkusją tego niedokładnego tłumaczenia - lub braku tłumaczenia na język angielski w ogóle - byłoby to, że greckie artefakty z tytułem lub opisem odnoszącym się do konkretnego tematu nie pojawiałyby się w wynikach, gdy ktoś szuka obrazów o Ostatniej Wieczerzy na stronie internetowej Europeany.

Budowanie pomostu między Europeaną a społecznościami zajmującymi się usługami cyfrowymi w zakresie eTranslation

W jaki sposób projekt Europeana Translate współpracuje z innymi zainteresowanymi stronami i narzędziami, aby sprostać temu wyzwaniu?

Opracowany przez Komisję Europejską eTranslation jest narzędziem językowym stworzonym przy użyciu najnowszych technologii sztucznej inteligencji i został przeszkolony w zakresie dużych ilości danych dostępnych zarówno wewnętrznie, jak i zebranych w ramach ogólnounijnego gromadzenia zasobów językowych. W repozytorium ELRC-SHARE wykorzystywanym przez DSI eTranslation dziedzictwo kulturowe jest niedostatecznie reprezentowane, w związku z czym istniejące rozwiązania technologiczne są mniej dobrze przygotowane do obsługi konkretnych aspektów danych dotyczących dziedzictwa kulturowego.

W tym kontekście budowanie współpracy między zainteresowanymi stronami ze społeczności Europeana i eTranslation ma kluczowe znaczenie dla dostosowania narzędzi tłumaczenia maszynowego, tak aby mogły one zaspokajać szczególne potrzeby dziedziny dziedzictwa kulturowego. Europeana Translate ma na celu połączenie eTranslation i społeczności Europeana, aby sprostać wyzwaniom napotykanym przez oba sektory. Poprawa wielojęzycznego dostępu do cyfrowego dziedzictwa kulturowego wymaga szeregu uzupełniających się ról i wiedzy fachowej, które są obsługiwane przez różnych partnerów Europeana Translate (zob.je tutaj).

Eksperymenty z tłumaczeniem maszynowym

W ciągu ostatnich kilku miesięcy partnerzy projektu współpracowali nad wyborem i odpowiednim segmentowaniem i czyszczeniem rekordów metadanych ze strony internetowej Europeany. Dane te zostały następnie wykorzystane przez partnera projektu Pangeanic, który wykorzystał je oprócz 12 mln segmentów tekstu tłumaczeniowego z istniejących ogólnych zasobów językowych w celu poprawy dokładności algorytmów tłumaczenia maszynowego podczas tłumaczenia metadanych dotyczących dziedzictwa kulturowego.

Pangeanic przeprowadził szereg eksperymentów, biorąc pod uwagę różne kombinacje danych treningowych. Obejmowały one dwujęzyczne metadane z Europeany, dane syntetyczne uzyskane z metadanych w jednym języku oraz wielojęzyczne słownictwo istotne dla dziedziny dziedzictwa kulturowego. Rozważono również alternatywne źródła danych, poza Europeaną, dla języków, dla których istnieje niewiele zasobów z tłumaczeniami na język angielski lub nie ma ich wcale. Automatyczna ocena tych eksperymentów przy użyciu ustalonych wskaźników pozwoliła partnerom zdecydować o konfiguracji najlepszych jakościowo tłumaczeń automatycznych i porównać je z wynikami osiągniętymi przez inne narzędzia tłumaczeniowe, takie jak Google Translate i eTranslate. Ogólnie rzecz biorąc, ocena wykazuje poprawę wyników w porównaniu z modelami ogólnymi dla większości języków.

Mechanizmy tłumaczenia maszynowego powstałe w wyniku tego procesu będą wykorzystywane do tłumaczenia metadanych z 23 języków urzędowych UE na język angielski (24. język urzędowy). Te mechanizmy tłumaczeniowe będą wykorzystywane do generowania automatycznych tłumaczeń na język angielski dla co najmniej 25 mln rekordów metadanych na platformie Europeana. Tłumaczenia będą indeksowane i wyświetlane, co poprawi wielojęzyczność użytkowników na platformie Europeana. Odwiedzając osobę, która szuka artefaktów inspirowanych tematyką religijną "Ostatniej Wieczerzy", po ukończeniu Europeana Translate, będą mogli również uzyskać dostęp do obrazów z Grecji, Rumunii i wielu innych krajów, które obecnie nie są uwzględnione w wynikach wyszukiwania.

Ponadto Europeana Translate udostępni publicznie wybrane i odpowiednio przetworzone zasoby językowe, które wyprodukowała za pośrednictwem repozytorium ELRC-SHARE na podstawie licencji na bezpłatne ponowne wykorzystanie (CC0). Umożliwi to społeczności tłumaczy maszynowych korzystanie z otwartych danych w celu szkolenia, dostosowywania i testowania swoich usług tłumaczeniowych w dziedzinie dziedzictwa kulturowego.

Zaangażowanie ludzi w pętlę

W nadchodzących miesiącach językoznawcy i osoby zawodowo zajmujące się dziedzictwem kulturowym przeprowadzą dwie uzupełniające się oceny tłumaczeń automatycznych wykonanych w ramach eksperymentów.

Narzędzie do oceny tłumaczenia maszynowego zostanie wykorzystane do oceny dokładności i wydajności wszystkich 23 silników tłumaczeniowych. Zorganizowane zostaną trzy kampanie crowdsourcingowe w celu zaangażowania osób zawodowo zajmujących się dziedzictwem kulturowym, aby pomóc w testowaniu i ocenie tłumaczenia automatycznego (języki podlegające ocenie w tym zakresie obejmują francuski, włoski i niderlandzki). Kampanie będą również angażować odbiorców i podnosić świadomość społeczności dziedzictwa kulturowego na temat siły automatycznych usług tłumaczeniowych. Platforma CrowdHeritage będzie wykorzystywana do prezentacji automatycznych tłumaczeń w kontekście obiektów dziedzictwa kulturowego, do których się odnoszą.

Wyniki tych ocen dostarczą przydatnych spostrzeżeń i zostaną wykorzystane do określenia dopuszczalnego progu jakości w odniesieniu do publikowania automatycznych tłumaczeń na Europeanę oraz do wykorzystania na platformach własnych organizacji dziedzictwa kulturowego.

Dowiedz się więcej i zaangażuj się

Aby dowiedzieć się więcej, można obejrzeć film wprowadzający , film o pierwszych wynikach projektu, lub przeczytać o architekturze Europeana Translate w tym dokumencie zaprezentowanym na Europejskim Stowarzyszeniu Tłumaczeń Maszynowych 2022. Profesjonaliści w dziedzinie audiowizualnej, mody i muzeów będą mieli szansę przyczynić się do projektu, pomagając ocenić wyniki w naszych kampaniach niszowych, które odbędą się na początku 2023 r. Obserwuj stronę wydarzenia Europeana Pro, aby dowiedzieć się więcej.