Knihy, rukopisy, historické noviny a mnohé iné druhy predmetov textového kultúrneho dedičstva poskytujú cenné vstupy pre širokú škálu výskumných tém. Poslaním CLARIN je sprístupňovať digitálne jazykové zdroje akademickým pracovníkom, výskumným pracovníkom, študentom a občanom-vedcom zo všetkých disciplín. Europeana a CLARIN ako partneri infraštruktúry digitálnych služieb Europeany (DSI) spolupracovali na začlenení materiálu kultúrneho dedičstva do infraštruktúry CLARIN. Na základe skúseností získaných počas pilotného projektu a na základe zlepšených služieb šírenia a kvality metaúdajov, ktoré ponúka Europeana, CLARIN nedávno vykonal nové hodnotenie dostupných súborov údajov a uskutočnil nový výber. Výberový proces bol zameraný na celý textový obsah, ako sú digitalizované knihy, periodiká a noviny s textovým obsahom získaným prostredníctvom optického rozpoznávania znakov (OCR). Ďalšími typmi objektov, ktoré boli tiež považované za skenovanie rukopisov a zvuku reči vo vysokom rozlíšení. Na to, aby sa zdroje kvalifikovali, museli byť priamo dostupné v surovej forme a nemali žiadne právne obmedzenia na opätovné použitie. V súčasnosti bolo identifikovaných 22 zbierok obsahujúcich približne 135 000 predmetov kultúrneho dedičstva, ktoré spĺňajú tieto kritériá.
Pripojené nástroje pre bezproblémové spracovanie
Po dokončení výberu CLARIN vytvoril mechanizmus pravidelného vyhľadávania metaúdajov pre vybrané zbierky. Po získaní sa metaúdaje prenesú do katalógu jazykových zdrojov CLARIN, virtuálneho jazykového observatória (VLO).
Priamo vidíme, že novozavedené zdroje významne prispievajú k počtu relevantných výsledkov vyhľadávania pre určité dotazy. Napríklad pri vyhľadávaní slovinských textových zdrojov pochádza takmer všetkých 73 000+ výsledkov od poskytovateľa údajov Europeany – v tomto prípade od Slovinskej digitálnej knižnice. Podobne sa výrazne zlepšila dostupnosť maďarských a poľských textových zdrojov.
Okrem toho, že VLO ponúka výskumníkom známy spôsob objavovania predmetov kultúrneho dedičstva relevantných pre ich výskum, poskytuje aj priamu cestu k analýze objavených zdrojov. Napríklad túto brožúru z 18. storočia, ktorú írska komisia pre rukopisy a knižnica Oireachtas ponúkajú vo formáte PDF s vloženým plným textom, možno teraz nájsť prostredníctvom platformy VLO.
Prejdite do zobrazenia Zdroje a vyberte možnosť Proces s rozvádzačom jazykových zdrojov, zobrazí sa zoznam vyvolaných nástrojov - deväť v čase písania. Medzi možnosti patrí gramatická analýza prostredníctvom reťazca Weblicht Dependency Parsing a balík Voyant pre počítačovú analýzu textu. Upozorňujeme, že hoci LRS možno použiť pre akýkoľvek zdroj, nemá prepojené nástroje pre všetky typy jazykov alebo zdrojov a že v aktuálnej verzii sa uplatňuje obmedzenie veľkosti súboru. V ďalšej verzii bude toto obmedzenie zrušené.

Novo integrovaný obsah bude ďalej napĺňať potenciál
Teraz, keď sa dosiahla integrácia kvality výroby so značným výberom kvalitných a dobre opísaných zdrojov, môžeme vidieť obrysy potenciálu takejto integrácie vo väčšom rozsahu. Súčasné úsilie o sprístupnenie plnotextového obsahu pre veľké zbierky digitalizovaných novín v rámci projektu Europeana Newspapers zvyšuje pravdepodobnosť, že tento potenciál sa v blízkej budúcnosti vo významnej miere ďalej naplní. Okrem toho bude CLARIN pokračovať v hodnotení ďalších zbierok nad rámec „nízko visiacich plodov“ a zameria sa na ďalšie rozširovanie objemu zdrojov kultúrneho dedičstva na dosah ruky výskumných pracovníkov.
Vyhľadať, nájsť a spracovať plnotextové zdroje kultúrneho dedičstva s VLO teraz!
Ak vás zaujímajú zbierky dostupné vo virtuálnom jazykovom observatóriu a chceli by ste zistiť, aké nástroje sú k dispozícii na ich spracovanie, jednoducho prejdite na stránku vlo.clarin.eu, zadajte niektoré hľadané výrazy a začnite skúmať.
