Knihy, rukopisy, historické noviny a mnoho dalších druhů textových předmětů kulturního dědictví (CHO) poskytují cenné vstupy pro širokou škálu výzkumných témat. Posláním CLARIN je zpřístupnit digitální jazykové zdroje vědcům, výzkumným pracovníkům, studentům a občanským vědcům ze všech oborů. Jako partneři v infrastruktuře digitálních služeb Europeany spolupracují Europeana a CLARIN na začlenění materiálu kulturního dědictví do infrastruktury CLARIN. Na základě zkušeností získaných během pilotního projektu a v návaznosti na zlepšené služby šíření informací a kvalitu metadat, které nabízí Europeana, provedla organizace CLARIN nedávno nové hodnocení dostupných datových souborů a provedla nový výběr. Výběrové řízení se zaměřilo na plný textový obsah, jako jsou digitalizované knihy, periodika a noviny s textovým obsahem získaným optickým rozpoznáváním znaků (OCR). Jiné typy objektů, které byly také považovány za skeny s vysokým rozlišením rukopisů a řečového zvuku. Aby byly zdroje způsobilé, musely být přímo dostupné v nezpracované podobě a neměly žádná právní omezení pro opětovné použití. V současné době bylo identifikováno 22 sbírek obsahujících přibližně 135 000 předmětů kulturního dědictví, které tato kritéria splňují.
Propojené nástroje pro bezproblémové zpracování
Po dokončení výběru CLARIN nastavil mechanismus pro pravidelné vyhledávání metadat pro vybrané sbírky. Po načtení jsou metadata požita do katalogu jazykových zdrojů CLARIN, což je Středisko pro sledování virtuálního jazyka (VLO).
Přímo vidíme, že nově zavedené zdroje významně přispívají k počtu relevantních výsledků vyhledávání pro určité dotazy. Například při vyhledávání slovinských textových zdrojů pochází téměř všech více než 73 000 výsledků od poskytovatele dat Europeany – v tomto případě Slovinské digitální knihovny. Obdobně byla výrazně posílena dostupnost maďarských a polských textových zdrojů.
Kromě toho, že VLO nabízí výzkumným pracovníkům známý způsob objevování objektů kulturního dědictví, které jsou relevantní pro jejich výzkum, poskytuje také přímou cestu k analýze objevených zdrojů. Například tento leták z 18. století, nabízený irskou komisí pro rukopisy a knihovnou Oireachtas jako PDF s vloženým plným textem, je nyní k dispozici prostřednictvím kontaktního místa pro styk s veřejností.
Přejdete-li do zobrazení Zdroje a vyberete-li možnost Proces s přepínačem Jazykové prostředky, zobrazí se seznam invokovatelných nástrojů - devět v době psaní. Mezi možnosti patří gramatická analýza prostřednictvím řetězce Weblicht Dependency Parsing a sada Voyant pro počítačovou textovou analýzu. Všimněte si, že ačkoli LRS může být vyvolána pro libovolný zdroj, nemá propojené nástroje pro všechny typy jazyků nebo zdrojů a že v aktuální verzi platí omezení velikosti souboru. V nadcházející verzi bude toto omezení zrušeno.

Nově integrovaný obsah bude dále naplňovat potenciál
Nyní, když bylo dosaženo integrace kvality výroby velkého výběru kvalitních a dobře popsaných zdrojů, můžeme vidět obrysy potenciálu takové integrace ve větším měřítku. Vzhledem k současnému úsilí o zpřístupnění plnotextového obsahu pro velké sbírky digitalizovaných novin v rámci projektu Europeana Newspapers je pravděpodobné, že tento potenciál bude v blízké budoucnosti ve značném rozsahu dále naplněn. Kromě toho bude CLARIN pokračovat v hodnocení dalších sbírek nad rámec „nízce visícího ovoce“ a bude usilovat o další rozšiřování objemu zdrojů kulturního dědictví na dosah ruky výzkumných pracovníků.
Vyhledávání, vyhledávání a zpracování plnotextových zdrojů kulturního dědictví s VLO nyní!
Pokud jste zvědaví na sbírky, které jsou k dispozici v observatoři virtuálního jazyka, a chtěli byste zjistit, jaké nástroje jsou k dispozici pro jejich zpracování, jednoduše přejděte na stránku vlo.clarin.eu, zadejte některé vyhledávací termíny a začněte zkoumat.
