Virtuální jazyková observatoř
CLARIN je výzkumná infrastruktura, jejímž cílem je podporovat výzkumné pracovníky v humanitních a společenských vědách zpřístupněním digitálních jazykových zdrojů a nástrojů z celé Evropy i mimo ni prostřednictvím jednotného on-line prostředí pro přihlašování. Jako partneři v infrastruktuře digitálních služeb Europeany spolupracují Europeana a CLARIN na začlenění obsahu kulturního dědictví do infrastruktury CLARIN. Od počáteční pilotní integrace v roce 2017 společnost CLARIN pravidelně aktualizuje a rozšiřuje výběr předmětů kulturního dědictví, které zahrnuje do své observatoře virtuálního jazyka (VLO). Tato on-line vyhledávací a vyhledávací služba se zaměřuje na potřeby vědců, kteří hledají jazykové zdroje, a je integrována do širší infrastruktury CLARIN.
Nové zdroje pro výzkumné pracovníky
Klíčovou součástí této integrace je zlepšení přístupu uživatelů k on-line analýze a možnostem zpracování jakéhokoli zdroje nalezeného prostřednictvím VLO. Tyto funkce jsou k dispozici pro širokou škálu zdrojů kulturního dědictví „sklizených“ prostřednictvím Europeany, od rukopisů z období renesance a digitalizovaných novin až po historické dětské knihy a záznamy ústní historie.
V dubnu 2019 jsme psali o první integraci zdrojů. Ukázali jsme mocný příklad toho, jak lidé mohou zpracovat jazykový zdroj přímo ze svého prohlížeče s několika kliknutími poté, co ho objevili. V té době bylo přibližně 135 000 záznamů získáno z Europeany a zařazeno do VLO. Od té doby jsme provedli dvě další iterace výběru a integrace, které vyústily ve více než 275 000 záznamů z Europeany, což je více než kterýkoli jiný poskytovatel metadatových záznamů, který je v současné době ve VLO. Níže uvádíme dva další příklady zdrojů, které jsou v současné době k dispozici, a ukazujeme, jak je lze dále zpracovávat.
„O kimmeryjskich pomnikach w Krymie“
"Okimmeryjskich pomnikach w Krymie",je polská kniha z roku 1882, poskytovaná Federacja Bibliotek Cyfrowych jako PDF, s plným textovým obsahem dostupným jako výsledek OCR (optické rozpoznávání znaků). Jak ukazuje animace níže, někdo, kdo používá VLO, může prozkoumat možnosti zpracování výběrem odkazu na jednotlivý soubor a jeho zpracováním pomocí Přepínacího panelu jazykových zdrojů. Pro tento záznam je k dispozici celá řada zajímavých nástrojů pro zpracování přirozeného jazyka, z nichž většina je poskytována polským konsorciem CLARIN-PL.
Počítačoví lingvisté by mohli chtít vidět výsledek různých typů dostupných jazykových analýz, zatímco humanitní učenci by mohli považovat za zajímavé prozkoumat výstup extraktoru klíčových slov, který poskytuje seřazený seznam témat automaticky detekovaných jako relevantní pro text. Nástroj, který nabízí tento typ analýzy pro polštinu, je ReSpa. Může být spuštěna přímo z rozvaděče, a tím mohou výzkumníci rychle pochopit obsah díla, aniž by ho otevřeli! To může být užitečné i pro ty, kteří nečtou polsky, protože seznam témat lze snadno přeložit pomocí obecného nástroje pro překlad textu, jako je Google Translate. Pro tento příklad můžeme během několika minut zjistit, že na základě obsahu knihy je jeho hlavním tématem památky.

„Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland“
Druhým příkladem je digitalizovaná dětská kniha z 19. století, kterou poskytla nizozemská národní knihovna: „Eentheepartijtje van Mevrouw Poes: eene vertelling uit Katsland'. Přímý odkaz na PDF je k dispozici pro tento zdroj. Kromě skenů bohatých ilustrací a příběhu také kóduje celý obsah knihy jako strojově čitelný text.
Obrázek
Pomocí rozvaděče jazykových zdrojů může uživatel zjistit, že nástroj pro vzdálené čtení Voyant je dostupnou možností zpracování. Jakmile je zdroj načten do Voyant, text je prezentován vedle různých metrik a sady nástrojů, které umožňují učenci provádět kvantitativní analýzy termínů v textu, jako v příkladu níže.
Obrázek
Tento korpus má 1 dokument s 2836 celkovými slovy a 1010 jedinečnými slovními tvary. Vytvořeno před 3 sekundami. Hustota slovní zásoby: 0.356. Průměrná slova na větu: 32.2. Nejčastější slova v korpusu: mevrouw (49); básně (38); mademoiselle (18); epartijtje (17); Pánové (14).
Zjistit více
Některé další zajímavé sbírky přidané od naší poslední zprávy, které můžete nyní prozkoumat prostřednictvím VLO, zahrnují:
Digitalizované noviny a časopisy ze Slovinské digitální knihovny, Federacja Bibliotek Cyfrowych (Polsko) a Varna Public Library (Bulharsko)
Cestovní knihy ze Slovinské digitální knihovny
Renesanční rukopisy italské Národní rady pro výzkum Opera del Vocabolario Italiano
Ústní historie záznamy z Monaghan County Council a University College Cork (Irsko)
Pokud jste zvědaví na tyto a mnoho dalších sbírek, které jsou k dispozici v observatoři virtuálního jazyka, a chtěli byste prozkoumat nástroje, které jsou k dispozici pro jejich analýzu a zpracování, navštivte vlo.clarin.eu, zadejte některé vyhledávací termíny a začněte zkoumat!
