Virtuálne jazykové observatórium
CLARIN je výskumná infraštruktúra, ktorej cieľom je podporovať výskumných pracovníkov v humanitných a spoločenských vedách sprístupnením digitálnych jazykových zdrojov a nástrojov z celej Európy a mimo nej prostredníctvom jednotného prihlasovacieho online prostredia. Europeana a CLARIN ako partneri infraštruktúry digitálnych služieb Europeany (DSI) spolupracujú na začlenení obsahu kultúrneho dedičstva do infraštruktúry CLARIN. Od počiatočnej pilotnej integrácie v roku 2017 CLARIN pravidelne aktualizuje a rozširuje výber predmetov kultúrneho dedičstva, ktoré zahŕňa do svojho virtuálneho jazykového observatória (VLO). Táto online vyhľadávacia a vyhľadávacia služba sa zameriava na potreby akademických pracovníkov, ktorí hľadajú jazykové zdroje, a je integrovaná do širšej infraštruktúry CLARIN.
Nové zdroje pre výskumných pracovníkov
Kľúčovou súčasťou tejto integrácie je zlepšenie prístupu používateľov k online analýze a možnostiam spracovania pre akýkoľvek zdroj nájdený prostredníctvom VLO. Takéto funkcie sú k dispozícii pre širokú škálu zdrojov kultúrneho dedičstva „zozbieraných“ prostredníctvom Europeany, od rukopisov z obdobia renesancie a digitalizovaných novín až po historické detské knihy a nahrávky ústnej histórie.
V apríli 2019 sme písali o prvej integrácii zdrojov. Ukázali sme silný príklad toho, ako môžu ľudia spracovať jazykový zdroj priamo zo svojho prehliadača niekoľkými kliknutiami po jeho objavení. V tom čase bolo približne 135 000 záznamov získaných z Europeany a zahrnutých do VLO. Odvtedy sme uskutočnili dve ďalšie iterácie výberu a integrácie, čo viedlo k viac ako 275 000 záznamom z Europeany, čo je viac ako ktorýkoľvek iný individuálny poskytovateľ záznamov metaúdajov, ktorý je v súčasnosti vo VLO. Nižšie uvádzame dva ďalšie príklady zdrojov, ktoré sú v súčasnosti k dispozícii, a ukazujeme, ako ich možno ďalej spracovať.
„O kimmeryjskich pomnikach w Krymie“
Okimmeryjskich pomnikach w Krymieje poľská kniha z roku 1882, ktorú poskytla Federacja Bibliotek Cyfrowych ako PDF, s plným textovým obsahom dostupným ako výsledok OCR (optické rozpoznávanie znakov). Ako ukazuje animácia nižšie, niekto, kto používa VLO, môže preskúmať možnosti spracovania výberom prepojenia na individuálny súbor a jeho spracovaním pomocou rozvádzača jazykových zdrojov. Pre tento záznam je k dispozícii celý rad zaujímavých nástrojov na spracovanie prirodzeného jazyka, z ktorých väčšinu poskytuje poľské konzorcium CLARIN-PL.
Výpočtoví lingvisti by mohli chcieť vidieť výsledok rôznych typov dostupných jazykových analýz, zatiaľ čo humanitní vedci by mohli považovať za zaujímavé preskúmať výstup extraktora kľúčových slov, ktorý poskytuje zoradený zoznam tém automaticky zistených ako relevantné pre text. Nástrojom, ktorý ponúka tento typ analýzy pre poľštinu, je ReSpa. Môže sa spustiť priamo z rozvádzača a tým môžu výskumníci rýchlo získať pochopenie obsahu diela bez toho, aby ho dokonca otvorili! Môže to byť užitočné aj pre tých, ktorí nečítajú poľštinu, keďže zoznam tém možno ľahko preložiť pomocou všeobecného nástroja na preklad textu, ako je napríklad Google Translate. Pre tento príklad môžeme v priebehu niekoľkých minút zistiť, že na základe obsahu knihy je jeho hlavnou témou pamiatky.

„Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland“
Naším druhým príkladom je digitalizovaná detská kniha z 19. storočia, ktorú poskytla Holandská národná knižnica: „Eentheepartijtje van Mevrouw Poes: eene vertelling uit Katsland'. Pre tento zdroj je k dispozícii priamy odkaz na dokument PDF. Okrem skenovania bohatých ilustrácií a príbehu tiež kóduje celý obsah knihy ako strojovo čitateľný text.
Obrázok
Pomocou rozvádzača jazykových zdrojov môže používateľ zistiť, že nástroj na vzdialené čítanie Voyant je k dispozícii možnosť spracovania. Akonáhle je zdroj načítaný do Voyant, text je prezentovaný vedľa rôznych metrík a súboru nástrojov, ktoré umožňujú akademickému pracovníkovi vykonávať kvantitatívne analýzy pojmov v texte, ako je to v príklade nižšie.
Obrázok
Tento korpus obsahuje 1 dokument s 2 836 celkovými slovami a 1 010 jedinečnými slovnými formami. Vytvorené pred 3 sekundami. Hustota slovnej zásoby: 0.356. Priemerné slová na vetu: 32.2. Najčastejšie slová v korpuse: mevrouw (49); básne (38); mademoiselle (18); theepartijtje (17); Obyvateľstvo (14).
Ďalšie informácie
Niektoré ďalšie zaujímavé zbierky pridané od našej poslednej správy, ktoré teraz môžete preskúmať prostredníctvom VLO, zahŕňajú:
Digitalizované noviny a periodiká z Digitálnej knižnice Slovinska, Federacja Bibliotek Cyfrowych (Poľsko) a Verejnej knižnice Varna (Bulharsko)
Cestovné knižky zo Slovinskej digitálnej knižnice
Rukopisy z obdobia renesancie z Opery del Vocabolario Italiano Talianskej národnej rady pre výskum
Záznamy ústnej histórie od rady grófstva Monaghan a University College Cork (Írsko)
Ak vás zaujímajú tieto a mnohé ďalšie zbierky, ktoré sú k dispozícii vo virtuálnom jazykovom observatóriu, a chceli by ste preskúmať dostupné nástroje na ich analýzu a spracovanie, navštívte stránku vlo.clarin.eu, zadajte niektoré hľadané výrazy a začnite skúmať!
