Knygos, rankraščiai, istoriniai laikraščiai ir daugelis kitų tekstinių kultūros paveldo objektų yra vertingas indėlis į įvairias mokslinių tyrimų temas. CLARIN misija yra padaryti skaitmeninius kalbos išteklius prieinamus mokslininkams, tyrėjams, studentams ir piliečiams mokslininkams iš visų disciplinų. Kaip „Europeana“ skaitmeninių paslaugų infrastruktūros (DSI) partneriai, „Europeana“ ir CLARIN bendradarbiavo, kad kultūros paveldo medžiaga būtų integruota į CLARIN infrastruktūrą. Remdamasi bandomojo projekto metu įgyta patirtimi ir geresnėmis EUROPEANA teikiamomis sklaidos paslaugomis bei metaduomenų kokybe, CLARIN neseniai atliko naują turimų duomenų rinkinių vertinimą ir atliko naują atranką. Atrankos procese daugiausia dėmesio skirta viso teksto turiniui, pavyzdžiui, suskaitmenintoms knygoms, periodiniams leidiniams ir laikraščiams, kurių tekstinis turinys gautas optinio simbolių atpažinimo (OCR) būdu. Kiti objektų tipai, kurie taip pat buvo svarstomi, yra didelės skiriamosios gebos rankraščių ir kalbos garso skenavimas. Kad ištekliai atitiktų reikalavimus, jie turėjo būti tiesiogiai prieinami neapdoroti ir jiems neturėjo būti taikomi teisiniai pakartotinio naudojimo apribojimai. Šiuo metu nustatyta, kad šiuos kriterijus atitinka 22 kolekcijos, kuriose yra apie 135 000 kultūros paveldo objektų.
Prijungti įrankiai sklandžiam apdorojimui
Užbaigus atranką, CLARIN sukūrė reguliarios pasirinktų rinkinių metaduomenų paieškos mechanizmą. Gauti metaduomenys įtraukiami į CLARIN kalbos išteklių katalogą – Virtualią kalbos observatoriją (VLO).
Tiesiogiai matome, kad naujai įvesti ištekliai labai prisideda prie tam tikrų užklausų atitinkamų paieškos rezultatų skaičiaus. Pavyzdžiui, ieškant Slovėnijos tekstinių išteklių, beveik visi 73 000+ rezultatai gaunami iš „Europeanos“ duomenų teikėjo – šiuo atveju Slovėnijos skaitmeninės bibliotekos. Taip pat buvo gerokai padidintos galimybės naudotis vengrų ir lenkų tekstų ištekliais.
VLO ne tik suteikia tyrėjams pažįstamą būdą atrasti jų tyrimams svarbius kultūros paveldo objektus, bet ir suteikia tiesioginį kelią atrastų išteklių analizei. Pavyzdžiui, šią XVIII a. brošiūrą, kurią Airijos rankraščių komisija ir Irachto biblioteka pateikė PDF formatu su įterptu viso teksto turiniu, dabar galima rasti VLO.
Eidami į Išteklių rodinį ir pasirinkdami Procesą su kalbos išteklių komutatoriaus parinktimi, matote naudojamų įrankių sąrašą - devyni rašymo metu. Tarp variantų yra gramatinė analizė per Weblicht priklausomybės parsing grandinę ir "Voyant" komplektą kompiuterinei teksto analizei. Atkreipkite dėmesį, kad nors LRS gali būti naudojama bet kokiam ištekliui, ji neturi susietų įrankių visoms kalbos ar išteklių rūšims ir kad dabartinėje versijoje taikomas failo dydžio apribojimas. Būsimoje versijoje šis apribojimas bus panaikintas.

Naujai integruotas turinys dar labiau išnaudos potencialą
Dabar, kai pasiektas gamybos kokybės integravimas į didelį geros kokybės ir gerai apibūdintų išteklių pasirinkimą, matome tokios integracijos potencialo kontūrus platesniu mastu. Dėl dabartinių pastangų užtikrinti, kad projekto „Europeana Newspapers“ viso teksto turinys būtų prieinamas didelėms suskaitmenintų laikraščių kolekcijoms, tikėtina, kad artimiausiu metu šis potencialas bus toliau dideliu mastu išnaudotas. Be to, CLARIN toliau vertins papildomas kolekcijas, neapsiribojant „žemai kabančiais vaisiais“, ir sieks nuolat didinti kultūros paveldo išteklių kiekį tyrėjų rankose.
Ieškokite, raskite ir apdorokite viso teksto kultūros paveldo išteklius su VLO dabar!
Jei domitės virtualiosios kalbos observatorijoje esančiomis kolekcijomis ir norėtumėte sužinoti, kokiomis priemonėmis jas galima tvarkyti, tiesiog eikite į vlo.clarin.eu, įveskite kai kuriuos paieškos terminus ir pradėkite tyrinėti.
