Idąc "eXXtra" mile: nowe technologie wzbogacania danych dotyczących dziedzictwa kulturowego

Opublikowano 27 czerwca 2022 przez

Alexander Raginsky (Pangeanic)

Vassilis Tzouvaras (National Technical University of Athens)

Umożliwienie automatycznego tłumaczenia w celu wzbogacenia

Narzędzie API opracowane przez partnera projektu Pangeanic wykrywa język używany w metadanych Europeany i umożliwia tłumaczenie maszynowe. Narzędzie to, nazwane Heritage Metadata Automatic Translation Service (HM ATS), jest częścią zestawu narzędzi do wzbogacania semantycznego opracowanych przez Europeanę XX.

Aby stworzyć narzędzie, Pangeanic zbudował 10 neuronowych maszyn tłumaczeniowych (tłumaczących włoski, niemiecki, czeski, grecki, francuski, szwedzki, kataloński, niderlandzki, polski i hiszpański na angielski). Wykorzystali dane szkoleniowe z własnych repozytoriów Pangeanic i otwarte dane w internecie. Pangeanic zatrudniał również tłumaczy do tłumaczenia ograniczonej liczby zapisów z repozytoriów Europeany w celu uzyskania szczegółowych danych szkoleniowych Europeany dla kilku języków.

Narzędzie zostało wykorzystane do przetłumaczenia i wzbogacenia około dwóch i pół miliona rekordów podczas projektu. Pangeanic z powodzeniem rozszerzył i dopracował narzędzie, aby dopasować je do wymagań wydajnościowych tak ogromnej ilości danych. Użyj kodu API samodzielnie.

Aby ocenić i zweryfikować jakość tłumaczenia maszynowego, partnerzy utworzyli również system walidacji tłumaczeń (na podstawie LabelStudio). Specjaliści zajmujący się dziedzictwem kulturowym i native speakerzy odpowiednich języków zatwierdzili ponad 2700 tłumaczeń za pomocą tego systemu. Informacje zwrotne były w przeważającej mierze pozytywne, potwierdzając wysoką jakość neuronowego tłumaczenia maszynowego i to, że działa ono dobrze w dziedzinie cyfrowego dziedzictwa kulturowego.

Zatwierdzone tłumaczenia zostaną wykorzystane do dalszego doskonalenia mechanizmów tłumaczenia maszynowego w ramach projektu Europeana Translate, w który zaangażowany jest również Pangeanic. Celem tego projektu jest wsparcie Europeany w realizacji jej wielojęzycznej strategii poprzez zapewnienie tłumaczeń metadanych, które umożliwią lepsze wyszukiwanie i wyświetlanie jej zbiorów w językach ojczystych i językach użytkowników.

Wzbogacanie zbiorów danych

SAGE, internetowe narzędzie do tworzenia, wzbogacania, publikowania, uzyskiwania dostępu do zbiorów danych RDF i zarządzania nimi, zostało opracowane przez Narodowy Uniwersytet Techniczny w Atenach (NTUA) dla Europeany XX. RDF (resource description framework) jest językiem używanym do reprezentowania zawartości zbioru danych. Dane RDF można bezpośrednio importować lub generować z różnych źródeł i formatów danych, organizować w zbiorach danych i wzbogacać za pomocą adnotatorów. Wzbogacenia te można następnie walidować ręcznie. Wszystkie zbiory danych, w tym wszelkie adnotacje, mogą być publikowane w sklepach RDF, indeksowane i dostępne za pośrednictwem wywołań API.

Dzięki SAGE wybrane części opublikowanych zbiorów danych mogą być teraz również opatrywane adnotacjami i wzbogacane za pośrednictwem zewnętrznych usług API, takich jak narzędzia łączące dane z odpowiednimi Wikidanymi, DBPedia, Geonames i innymi zasobami lub narzędzia wykrywające występowanie terminów słownictwa w danych. Po wzbogaceniu w SAGE są one następnie ręcznie walidowane za pomocą systemu, który umożliwia masowe walidacje za pomocą grupowania tekstu i sortowania częstotliwości tekstu, przydzielania zadań walidacji wielu użytkownikom oraz ścisłego monitorowania ogólnego procesu walidacji.

Narzędzie SAGE zostało również wykorzystane w projekcie Pagode do automatycznego wzbogacenia ponad 20 000 rekordów. Zostanie on również wykorzystany w projekcie CRAFTED do analizy pól metadanych i tekstu pobranego z narzędzi do analizy treści sztucznej inteligencji w celu zidentyfikowania i usunięcia niepewności z nazwanych podmiotów. Ostatecznym celem jest wzbogacenie ponad 100 000 rekordów i umożliwienie walidacji użytkowników oraz oceny automatycznie wyodrębnionych podmiotów.

Dowiedz się więcej

Wszystkie narzędzia opracowane w ramach projektu Europeana XX (oraz inne projekty dotyczące usług ogólnych) można znaleźć na stronie Europeana Services and Tools.

Idąc "eXXtra" mile: nowe technologie wzbogacania danych dotyczących dziedzictwa kulturowego

Udostępnij

Umożliwienie automatycznego tłumaczenia w celu wzbogacenia

Wzbogacanie zbiorów danych

Dowiedz się więcej