Książki, rękopisy, gazety historyczne i wiele innych rodzajów tekstowych obiektów dziedzictwa kulturowego (CHO) stanowią cenny wkład w szeroki zakres tematów badawczych. Misją CLARIN jest udostępnianie cyfrowych zasobów językowych naukowcom, badaczom, studentom i naukowcom obywatelskim ze wszystkich dyscyplin. Jako partnerzy infrastruktury usług cyfrowych Europeana (DSI), Europeana i CLARIN współpracowały w celu włączenia materiałów dziedzictwa kulturowego do infrastruktury CLARIN. Na podstawie doświadczeń zdobytych podczas projektu pilotażowego oraz w oparciu o ulepszone usługi rozpowszechniania i jakość metadanych oferowane przez Europeanę CLARIN przeprowadził niedawno nową ocenę dostępnych zbiorów danych i dokonał nowego wyboru. Proces selekcji koncentrował się na treściach pełnotekstowych, takich jak zdigitalizowane książki, czasopisma i gazety o treści tekstowej uzyskanej dzięki optycznemu rozpoznawaniu znaków (OCR). Inne rodzaje obiektów, które również brano pod uwagę, to skany rękopisów w wysokiej rozdzielczości i dźwięki mowy. Aby się zakwalifikować, zasoby musiały być bezpośrednio dostępne w surowej formie i nie miały ograniczeń prawnych dotyczących ponownego wykorzystania. Obecnie 22 zbiory zawierające około 135 000 obiektów dziedzictwa kulturowego zostały zidentyfikowane jako spełniające te kryteria.
Połączone narzędzia do bezproblemowego przetwarzania
Po zakończeniu selekcji CLARIN ustanowił mechanizm regularnego pobierania metadanych dla wybranych zbiorów. Po pobraniu metadane są wprowadzane do katalogu zasobów językowych CLARIN, Virtual Language Observatory (VLO).
Od razu widać, że nowo wprowadzone zasoby wnoszą znaczący wkład w liczbę odpowiednich wyników wyszukiwania dla niektórych zapytań. Na przykład w przypadku wyszukiwania słoweńskich zasobów tekstowych prawie wszystkie z ponad 73 000 wyników pochodzą od dostawcy danych Europeany – w tym przypadku Biblioteki Cyfrowej Słowenii. Podobnie znacznie zwiększono dostępność węgierskich i polskich zasobów tekstowych.
Oprócz oferowania naukowcom znanego sposobu odkrywania obiektów dziedzictwa kulturowego istotnych dla ich badań, WUP zapewnia również bezpośrednią ścieżkę do analizy odkrytych zasobów. Na przykład broszurę z XVIII wieku , oferowaną w formie pliku PDF z wbudowaną treścią pełnotekstową przez Irlandzką Komisję ds. Rękopisów i Bibliotekę Oireachtas, można obecnie znaleźć za pośrednictwem WUP.
Przechodząc do widoku Zasoby i wybierając Process z opcją Language Resource Switchboard, zobaczysz listę narzędzi invokable - dziewięć w momencie pisania. Wśród opcji są analiza gramatyczna poprzez łańcuch Weblicht Dependency Parsing i pakiet Voyant do komputerowej analizy tekstu. Zauważ, że chociaż LRS może być wywoływany dla dowolnego zasobu, nie ma połączonych narzędzi dla wszystkich typów języka lub zasobów i że w bieżącej wersji ma zastosowanie ograniczenie rozmiaru pliku. W nadchodzącej wersji ograniczenie to zostanie zniesione.

Nowo zintegrowane treści jeszcze bardziej wykorzystają potencjał
Teraz, gdy osiągnięto integrację jakości produkcji z dużym wyborem dobrej jakości i dobrze opisanymi zasobami, możemy zobaczyć kontury potencjału takiej integracji na większą skalę. Obecne wysiłki na rzecz udostępnienia pełnych treści tekstowych dużym zbiorom zdigitalizowanych gazet w ramach projektu Europeana Newspapers sprawiają, że potencjał ten prawdopodobnie zostanie w najbliższej przyszłości wykorzystany na znaczną skalę. Ponadto CLARIN przystąpi do oceny dodatkowych zbiorów poza „nisko wiszącymi owocami” i będzie dążyć do dalszego zwiększania ilości zasobów dziedzictwa kulturowego na wyciągnięcie ręki badaczy.
Wyszukuj, znajduj i przetwarzaj pełnotekstowe zasoby dziedzictwa kulturowego w VLO już teraz!
Jeśli jesteś ciekawy kolekcji dostępnych w Obserwatorium Języków Wirtualnych i chciałbyś dowiedzieć się, jakie narzędzia są dostępne do ich przetwarzania, po prostu przejdź do vlo.clarin.eu, wprowadź kilka wyszukiwanych haseł i rozpocznij eksplorację.
