Knjige, rukopisi, povijesne novine i mnoge druge vrste predmeta tekstualne kulturne baštine pružaju vrijedan doprinos širokom rasponu istraživačkih tema. Misija CLARIN-a je učiniti digitalne jezične resurse dostupnima znanstvenicima, istraživačima, studentima i građanima-znanstvenicima iz svih disciplina. Kao partneri u infrastrukturi digitalnih usluga Europeane (DSI), Europeana i CLARIN surađivali su na ugrađivanju materijala o kulturnoj baštini u infrastrukturu CLARIN-a. Na temelju iskustva stečenog tijekom pilot-projekta i na temelju poboljšanih usluga širenja i kvalitete metapodataka koje nudi Europeana, CLARIN je nedavno proveo novu evaluaciju dostupnih skupova podataka i proveo novi odabir. Postupak odabira bio je usmjeren na cjeloviti tekstualni sadržaj kao što su digitalizirane knjige, časopisi i novine s tekstualnim sadržajem dobivenim optičkim prepoznavanjem znakova (OCR). Druge vrste predmeta koje su također uzete u obzir su skeniranje rukopisa visoke razlučivosti i govorni zvuk. Kako bi se kvalificirali, resursi su morali biti izravno dostupni u sirovom obliku i nisu imali zakonska ograničenja za ponovnu uporabu. Trenutačno je utvrđeno da 22 zbirke koje sadržavaju oko 135 000 predmeta kulturne baštine ispunjavaju te kriterije.
Povezani alati za besprijekornu obradu
Nakon dovršetka odabira, CLARIN je uspostavio mehanizam za redovito dohvaćanje metapodataka za odabrane zbirke. Nakon što se dohvate, metapodaci se unose u CLARIN-ov katalog jezičnih resursa, Virtualni jezični opservatorij (VLO).
Odmah možemo vidjeti da novouvedeni resursi pružaju znatan doprinos broju relevantnih rezultata pretraživanja za određene upite. Na primjer, pretraživanje slovenskih tekstualnih resursa, gotovo svi rezultati od 73 000+ potječu od pružatelja podataka Europeane - u ovom slučaju Digitalne knjižnice Slovenije. Slično tome, znatno je povećana dostupnost mađarskih i poljskih tekstualnih resursa.
Osim što istraživačima nudi poznati način otkrivanja predmeta kulturne baštine relevantnih za njihovo istraživanje, VLO također pruža izravan put do analize otkrivenih resursa. Na primjer, ovaj pamflet iz 18. stoljeća, koji su Irska komisija za rukopise i Knjižnica Oireachtas ponudile kao PDF s ugrađenim cjelovitim tekstom, sada se može pronaći putem VLO-a.
Odlaskom na prikaz resursa i odabirom procesa s opcijom Switchboard za jezične resurse, vidjet ćete popis alata koji se mogu pozvati - devet u trenutku pisanja. Među opcijama su gramatička analiza putem lanca parsiranja ovisnosti Weblicht i paket Voyant za računalno potpomognutu analizu teksta. Imajte na umu da, iako se na LRS može pozvati za bilo koji resurs, on nema povezane alate za sve jezike ili vrste resursa te da se u trenutačnoj verziji primjenjuje ograničenje veličine datoteke. U predstojećoj verziji to će se ograničenje ukinuti.

Novointegrirani sadržaj dodatno će iskoristiti potencijal
Sada kada je postignuta proizvodno-kvalitetna integracija značajnog izbora kvalitetnih i dobro opisanih resursa, možemo vidjeti obrise potencijala takve integracije na većim razmjerima. Zbog trenutačnih napora za stavljanje cjelovitog teksta na raspolaganje velikim zbirkama digitaliziranih novina u okviru projekta Europeana Newspapers vjerojatno je da će se taj potencijal u bliskoj budućnosti dodatno ostvariti u znatnoj mjeri. Nadalje, CLARIN će nastaviti s evaluacijom dodatnih zbirki izvan okvira „plodova niske promjene” i nastojati nastaviti širiti količinu resursa kulturne baštine na dohvat ruke istraživača.
Pretražite, pronađite i obradite cjelovite resurse kulturne baštine s VLO-om sada!
Ako vas zanimaju zbirke dostupne u Opservatoriju za virtualni jezik i želite saznati koji su alati dostupni za njihovu obradu, jednostavno idite na vlo.clarin.eu, unesite neke pojmove za pretraživanje i počnite istraživati.
