Raamatud, käsikirjad, ajaloolised ajalehed ja paljud muud tekstilise kultuuripärandi objektid annavad väärtusliku panuse mitmesugustesse uurimisteemadesse. CLARINi missioon on teha digitaalsed keeleressursid kättesaadavaks kõigi erialade teadlastele, teadlastele, üliõpilastele ja kodanike teadlastele. Europeana digiteenuste taristu (DSI) partneritena on Europeana ja CLARIN teinud koostööd kultuuripärandi materjalide integreerimiseks CLARINi taristusse. Tuginedes katseprojekti käigus saadud kogemustele ning Europeana pakutavatele parematele levitamisteenustele ja metaandmete kvaliteedile, viis CLARIN hiljuti läbi olemasolevate andmekogumite uue hindamise ja tegi uue valiku. Valikuprotsessis keskenduti täistekstile, nagu digiteeritud raamatud, perioodikaväljaanded ja ajalehed, mille tekstiline sisu on saadud optilise märgituvastuse (OCR) abil. Muud tüüpi objektid, mida samuti kaaluti, on käsikirjade ja kõne heli kõrgresolutsiooniga skaneeringud. Kvalifitseerumiseks peavad ressursid olema toorkujul otse kättesaadavad ja nende taaskasutamise suhtes ei tohi kehtida õiguslikke piiranguid. Praegu on nendele kriteeriumidele vastavaks tunnistatud 22 kogu, mis sisaldavad ligikaudu 135 000 kultuuripärandi objekti.
Ühendatud tööriistad sujuvaks töötlemiseks
Pärast valiku lõpuleviimist lõi CLARIN mehhanismi valitud kogude metaandmete regulaarseks otsimiseks. Kui metaandmed on kätte saadud, sisestatakse need CLARINi keeleressursside kataloogi ehk virtuaalkeele vaatluskeskusesse (VLO).
Otsekohe näeme, et äsja kasutusele võetud ressursid annavad olulise panuse teatavate päringute jaoks asjakohaste otsingutulemuste arvu. Näiteks Sloveenia tekstiressursside otsimisel pärinevad peaaegu kõik enam kui 73 000 tulemust Europeana andmepakkujalt, käesoleval juhul Sloveenia digitaalraamatukogult. Samuti on oluliselt paranenud ungari ja poola keele tekstiressursside kättesaadavus.
Lisaks sellele, et VLO pakub teadlastele tuttavat viisi nende uurimistööga seotud kultuuripärandi objektide avastamiseks, pakub see ka otsest teed avastatud ressursside analüüsimiseks. Näiteks on see 18. sajandi brošüür, mida Iiri käsikirjade komisjon ja Oireachtase raamatukogu pakuvad PDF-vormingus ja millele on lisatud täistekst, nüüd kättesaadav VLO kaudu.
Avades ressursivaate ja valides suvandi Protsess keeleressursikeskjaamaga, näete käivitatavate tööriistade loendit - üheksa kirjutamise ajal. Valikute hulgas on grammatiline analüüs Weblicht Dependency Parsing ahela kaudu ja Voyanti komplekt arvutipõhiseks tekstianalüüsiks. Pange tähele, et kuigi LRS-i saab kasutada mis tahes ressursi puhul, ei ole sellel lingitud tööriistu kõigi keele- või ressursitüüpide jaoks ning praeguses versioonis kehtib faili suuruse piirang. Tulevases versioonis see piirang tühistatakse.

Uus integreeritud sisu võimaldab potentsiaali veelgi paremini ära kasutada
Nüüd, kui on saavutatud tootmiskvaliteedi integreerimine suure hulga hea kvaliteediga ja hästi kirjeldatud ressurssidega, näeme sellise integreerimise potentsiaali kontuure suuremas ulatuses. Praegused jõupingutused teha Europeana Newspapers projekti raames täistekstiline sisu kättesaadavaks suurtele digiteeritud ajalehtede kogudele muudavad tõenäoliseks, et see potentsiaal lähitulevikus olulisel määral veelgi realiseerub. Lisaks hindab CLARIN täiendavaid kollektsioone, mis ulatuvad kaugemale „madalalt rippuvatest viljadest“, ning püüab jätkuvalt suurendada kultuuripärandi ressursside mahtu teadlaste käeulatuses.
Otsige, leidke ja töötlege nüüd VLO abil täisteksti kultuuripärandi ressursse!
Kui olete huvitatud virtuaalkeele vaatluskeskuses kättesaadavatest kogudest ja soovite teada, millised vahendid on nende töötlemiseks kättesaadavad, minge lihtsalt veebisaidile vlo.clarin.eu, sisestage mõned otsingusõnad ja hakake uurima.
