Zbadanie nowych zasobów w Wirtualnym Obserwatorium Językowym CLARIN

Opublikowano 15 października 2020 przez

Twan Goosen (CLARIN ERIC)

Obserwatorium języka wirtualnego

CLARIN to infrastruktura badawcza, której celem jest wspieranie naukowców w dziedzinie nauk humanistycznych i społecznych poprzez udostępnianie cyfrowych zasobów i narzędzi językowych z całej Europy i spoza niej za pośrednictwem środowiska online z jednym logowaniem. Jako partnerzy infrastruktury usług cyfrowych Europeana (DSI) Europeana i CLARIN współpracują w celu włączenia treści dziedzictwa kulturowego do infrastruktury CLARIN. Od czasu wstępnej integracji pilotażowej w 2017 r. CLARIN regularnie aktualizuje i rozszerza wybór obiektów dziedzictwa kulturowego, które obejmuje w swoim Obserwatorium Języków Wirtualnych (VLO). Ta internetowa usługa wyszukiwania i odkrywania koncentruje się na potrzebach naukowców poszukujących zasobów językowych i jest zintegrowana z szerszą infrastrukturą CLARIN.

Nowe zasoby dla naukowców

Kluczowym elementem tej integracji jest poprawa dostępu użytkowników do analizy online i możliwości przetwarzania wszelkich zasobów znalezionych za pośrednictwem VLO. Takie funkcje są dostępne dla szerokiej gamy zasobów dziedzictwa kulturowego „zbieranych” za pośrednictwem Europeany, od rękopisów z epoki renesansu i zdigitalizowanych gazet po historyczne książki dla dzieci i zapisy historii mówionej.

W kwietniu 2019 r. pisaliśmy o pierwszej integracji zasobów. Pokazaliśmy potężny przykład tego, jak ludzie mogą przetwarzać zasoby językowe bezpośrednio z przeglądarki za pomocą kilku kliknięć po ich odkryciu. W tym momencie około 135 000 rekordów pochodziło z Europeany i zostało włączonych do VLO. Od tego czasu przeprowadziliśmy dwie dodatkowe iteracje selekcji i integracji, w wyniku których powstało ponad 275 000 rekordów z Europeany, czyli więcej niż jakikolwiek inny indywidualny dostawca rekordów metadanych obecnie w VLO. Poniżej przedstawiamy dwa dodatkowe przykłady zasobów, które są obecnie dostępne, i pokazujemy, w jaki sposób można je dalej przetwarzać.

„O kimmeryjskich pomnikach w Krymie”

"Okimmeryjskich pomnikach w Krymie",to polska książka z 1882 roku, udostępniona przez Federację Bibliotek Cyfrowych jako PDF, z pełną treścią tekstową dostępną w wyniku OCR (optycznego rozpoznawania znaków). Jak pokazuje poniższa animacja, ktoś korzystający z VLO może zbadać opcje przetwarzania, wybierając link do pojedynczego pliku i przetwarzając go za pomocą tablicy rozdzielczej zasobów językowych. Do tego rekordu dostępne są różnorodne ciekawe narzędzia do przetwarzania języka naturalnego, w większości dostarczane przez polskie konsorcjum CLARIN-PL.

Językoznawcy komputerowi mogą chcieć zobaczyć wyniki różnych rodzajów dostępnych analiz językowych, podczas gdy naukowcy humanistyczni mogą uznać za interesujące zbadanie wyników ekstraktora słów kluczowych, który zapewnia rankingową listę tematów automatycznie wykrywanych jako istotne dla tekstu. Narzędziem, które oferuje tego rodzaju analizy dla języka polskiego, jest ReSpa. Można go uruchomić bezpośrednio z tablicy rozdzielczej, a dzięki temu naukowcy mogą szybko zrozumieć treść pracy, nawet jej nie otwierając! Może to być również pomocne dla osób, które nie czytają po polsku, ponieważ listę tematów można łatwo przetłumaczyć za pomocą ogólnego narzędzia do tłumaczenia tekstu, takiego jak Tłumacz Google. Na tym przykładzie w ciągu kilku minut dowiemy się, że w oparciu o treść książki jej głównym tematem są zabytki.

„Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland”

Drugim przykładem jest zdigitalizowana dziewiętnastowieczna książka dla dzieci dostarczona przez Niderlandzką Bibliotekę Narodową: „Eentheepartijtje van Mevrouw Poes: eene vertelling uit Katsland'. Bezpośredni link do pliku PDF jest dostępny dla tego zasobu. Oprócz skanów bogatych ilustracji i historii, koduje również pełną treść książki jako tekst nadający się do odczytu maszynowego.

Zdjęcie

Korzystając z Language Resource Switchboard, użytkownik może dowiedzieć się, że narzędzie do odczytu zdalnego Voyant jest dostępną opcją przetwarzania. Po załadowaniu zasobu do Voyant tekst jest prezentowany obok różnych wskaźników i zestawu narzędzi, które pozwalają uczonemu przeprowadzić ilościową analizę terminów w tekście, jak w poniższym przykładzie.

Zdjęcie

Ten korpus ma 1 dokument zawierający 2836 słów i 1010 unikalnych form słownych. Stworzony 3 sekundy temu. Gęstość słownictwa: 0.356. Średnia liczba słów w zdaniu: 32.2. Najczęstsze słowa w korpusie: mevrouw (49); poes (38); mademoiselle (18); theepartijtje (17); Monsieur (14) (ang.).

Dowiedz się więcej

Inne ciekawe kolekcje dodane od czasu naszego ostatniego raportu, które można teraz przeglądać za pośrednictwem VLO, obejmują:

Cyfrowe gazety i czasopisma z Biblioteki Cyfrowej Słowenii, Federacji Bibliotek Cyfrowych (Polska) i Biblioteki Publicznej w Warnie (Bułgaria)
Książki podróżnicze ze Słoweńskiej Biblioteki Cyfrowej
Rękopisy z epoki renesansu z Opery Włoskiej Narodowej Rady Badań Naukowych (Opera del Vocabolario Italiano)
Ustne zapisy historii z Rady Hrabstwa Monaghan i University College Cork (Irlandia)

Jeśli jesteś ciekawy tych i wielu innych kolekcji dostępnych w Obserwatorium Języków Wirtualnych i chciałbyś zapoznać się z dostępnymi narzędziami do ich analizy i przetwarzania, odwiedź stronę vlo.clarin.eu, wprowadź kilka wyszukiwanych haseł i rozpocznij eksplorację!