Cărțile, manuscrisele, ziarele istorice și multe alte tipuri de obiecte de patrimoniu cultural textual (CHO) oferă o contribuție valoroasă pentru o gamă largă de subiecte de cercetare. Misiunea CLARIN este de a pune resursele lingvistice digitale la dispoziția cercetătorilor, studenților și oamenilor de știință din toate disciplinele. În calitate de parteneri în cadrul infrastructurii de servicii digitale (ISD) Europeana, Europeana și CLARIN au colaborat pentru a integra materiale de patrimoniu cultural în infrastructura CLARIN. Pe baza experienței dobândite în cursul proiectului-pilot și pe baza îmbunătățirii serviciilor de diseminare și a calității metadatelor oferite de Europeana, CLARIN a efectuat recent o nouă evaluare a seturilor de date disponibile și a efectuat o nouă selecție. Procesul de selecție s-a axat pe conținutul integral al textului, cum ar fi cărțile, periodicele și ziarele digitalizate cu conținut textual obținut prin recunoașterea optică a caracterelor (OCR). Alte tipuri de obiecte care au fost, de asemenea, luate în considerare sunt scanări de înaltă rezoluție ale manuscriselor și audio de vorbire. Pentru a se califica, resursele trebuiau să fie direct disponibile în forma lor brută și să nu aibă restricții legale în ceea ce privește reutilizarea. În prezent, 22 de colecții care conțin aproximativ 135.000 de obiecte de patrimoniu cultural au fost identificate ca îndeplinind aceste criterii.
Unelte conectate pentru prelucrarea fără sudură
După finalizarea selecției, CLARIN a instituit un mecanism de extragere periodică a metadatelor pentru colecțiile selectate. Odată extrase, metadatele sunt ingerate în catalogul resurselor lingvistice al CLARIN, Observatorul limbajului virtual (VLO).
În mod direct, putem observa că resursele nou introduse aduc o contribuție substanțială la numărul de rezultate relevante ale căutării pentru anumite interogări. De exemplu, căutând resurse de text slovene, aproape toate cele peste 73 000 de rezultate provin de la un furnizor de date Europeana – în acest caz, Biblioteca digitală a Sloveniei. În mod similar, disponibilitatea resurselor de text maghiare și poloneze a fost mult îmbunătățită.
Pe lângă faptul că oferă cercetătorilor o modalitate familiară de a descoperi obiecte de patrimoniu cultural relevante pentru cercetarea lor, VLO oferă, de asemenea, o cale directă de analiză a resurselor descoperite. De exemplu, această broșură din secolul al XVIII-lea, oferită ca PDF cu conținut integral de text încorporat de către Comisia irlandeză pentru manuscrise și Biblioteca Oireachtas, poate fi găsită acum prin intermediul VLO.
Mergând la vizualizarea Resurse și selectând opțiunea Proces cu panoul de comutare a resurselor lingvistice, vedeți o listă de instrumente invocabile - nouă la momentul scrierii. Printre opțiuni se numără analiza gramaticală prin lanțul de parsare a dependenței Weblicht și suita Voyant pentru analiza textului asistată de calculator. Rețineți că, deși LRS poate fi invocat pentru orice resursă, nu are instrumente legate pentru toate limbile sau tipurile de resurse și că se aplică o limitare a dimensiunii fișierului în versiunea curentă. O versiune viitoare va vedea această limitare ridicată.

Conținutul nou integrat va valorifica și mai mult potențialul
Acum că s-a realizat integrarea calitate-producție a unei selecții considerabile de resurse de bună calitate și bine descrise, putem vedea contururile potențialului unei astfel de integrări pe o scară mai largă. Eforturile actuale de a pune la dispoziție conținut integral pentru colecții mari de ziare digitalizate în cadrul proiectului Europeana Newspapers fac probabil ca acest potențial să fie valorificat în continuare la o scară substanțială în viitorul apropiat. În plus, CLARIN va continua să evalueze colecțiile suplimentare dincolo de „fructele cu atârnare redusă” și va urmări să extindă în continuare volumul resurselor patrimoniului cultural la îndemâna cercetătorilor.
Căutați, găsiți și procesați resurse de patrimoniu cultural cu text integral cu VLO acum!
Dacă sunteți curios cu privire la colecțiile disponibile în Observatorul limbajului virtual și doriți să aflați ce instrumente sunt disponibile pentru prelucrarea acestora, accesați pur și simplu vlo.clarin.eu, introduceți câțiva termeni de căutare și începeți să explorați.
