Knjige, rokopisi, zgodovinski časopisi in številne druge vrste besedilnih predmetov kulturne dediščine so dragocen prispevek k najrazličnejšim raziskovalnim temam. Poslanstvo CLARIN je dati digitalne jezikovne vire na voljo znanstvenikom, raziskovalcem, študentom in državljanskim znanstvenikom iz vseh disciplin. Europeana in CLARIN sta kot partnerja v infrastrukturi za digitalne storitve Europeana sodelovala pri vključevanju gradiva kulturne dediščine v infrastrukturo CLARIN. CLARIN je na podlagi izkušenj, pridobljenih med pilotnim projektom, ter na podlagi izboljšanih storitev razširjanja in kakovosti metapodatkov, ki jih ponuja Europeana, nedavno izvedel novo oceno razpoložljivih naborov podatkov in opravil nov izbor. Izbirni postopek je bil osredotočen na vsebino celotnega besedila, kot so digitalizirane knjige, periodični tisk in časopisi, z besedilno vsebino, pridobljeno z optičnim prepoznavanjem znakov (OCR). Druge vrste predmetov, ki so bile prav tako upoštevane, so skeniranje rokopisov visoke ločljivosti in govorni zvok. Da bi bili viri upravičeni, so morali biti neposredno na voljo v surovi obliki in zanje ni bilo pravnih omejitev za ponovno uporabo. Trenutno je bilo za 22 zbirk, ki vsebujejo približno 135 000 predmetov kulturne dediščine, ugotovljeno, da izpolnjujejo ta merila.
Povezana orodja za brezhibno obdelavo
Po zaključku izbora je CLARIN vzpostavil mehanizem za redno pridobivanje metapodatkov za izbrane zbirke. Ko so metapodatki pridobljeni, se vnesejo v katalog jezikovnih virov CLARIN, tj. virtualni jezikovni observatorij (VLO).
Takoj lahko vidimo, da na novo uvedeni viri znatno prispevajo k številu ustreznih rezultatov iskanja za določene poizvedbe. Na primer, pri iskanju slovenskih besedilnih virov skoraj vsi rezultati, ki jih je več kot 73.000, izvirajo od ponudnika podatkov Europeana - v tem primeru Digitalne knjižnice Slovenije. Podobno se je močno povečala razpoložljivost madžarskih in poljskih besedilnih virov.
VLO poleg tega, da raziskovalcem ponuja znan način odkrivanja predmetov kulturne dediščine, pomembnih za njihovo raziskovanje, ponuja tudi neposredno pot do analize odkritih virov. Na primer, ta brošura iz 18. stoletja, ki sta jo irska komisija za rokopise in knjižnica Oireachtas ponudili v obliki PDF z vdelano celotno besedilno vsebino, je zdaj na voljo prek VLO.
Če odprete pogled Viri in izberete Proces z možnostjo Preklopna plošča za jezikovne vire, se prikaže seznam orodij, ki jih je mogoče priklicati - devet v času pisanja. Med možnostmi sta slovnična analiza prek verige Weblicht Dependency Parsing in zbirka Voyant za računalniško podprto analizo besedila. Upoštevajte, da čeprav je LRS mogoče uporabiti za kateri koli vir, nima povezanih orodij za vse jezike ali vrste virov in da v trenutni različici velja omejitev velikosti datoteke. V naslednji različici bo ta omejitev odpravljena.

Novo integrirana vsebina bo še dodatno izkoristila potencial
Zdaj, ko je bila dosežena proizvodno kakovostna integracija obsežnega izbora kakovostnih in dobro opisanih virov, lahko vidimo obrise potenciala takšne integracije v večjem obsegu. Zaradi trenutnih prizadevanj, da bi bila celotna vsebina na voljo za velike zbirke digitaliziranih časopisov v okviru projekta Europeana Newspapers, je verjetno, da se bo ta potencial v bližnji prihodnosti v znatnem obsegu še naprej uresničeval. Poleg tega bo CLARIN še naprej ocenjeval dodatne zbirke, ki presegajo „nizko viseče sadje“, in si prizadeval za nadaljnjo širitev obsega virov kulturne dediščine na dosegu roke raziskovalcev.
Iskanje, iskanje in obdelava celotnih besedil virov kulturne dediščine z VLO zdaj!
Če vas zanimajo zbirke, ki so na voljo v virtualnem jezikovnem observatoriju, in želite izvedeti, katera orodja so na voljo za njihovo obdelavo, preprosto pojdite na vlo.clarin.eu, vnesite nekaj iskalnih izrazov in začnite raziskovati.
