Libri, manoscritti, giornali storici e molti altri tipi di oggetti testuali del patrimonio culturale (CHO) forniscono un prezioso contributo per una vasta gamma di argomenti di ricerca. La missione di CLARIN è quella di mettere le risorse linguistiche digitali a disposizione di studiosi, ricercatori, studenti e cittadini-scienziati di tutte le discipline. In qualità di partner dell'infrastruttura di servizi digitali (DSI) di Europeana, Europeana e CLARIN hanno collaborato per integrare il materiale del patrimonio culturale nell'infrastruttura di CLARIN. Sulla base dell'esperienza acquisita durante il progetto pilota e sulla base del miglioramento dei servizi di diffusione e della qualità dei metadati offerti da Europeana, CLARIN ha recentemente effettuato una nuova valutazione delle serie di dati disponibili e ha effettuato una nuova selezione. Il processo di selezione si è concentrato su contenuti full text come libri digitalizzati, periodici e giornali con contenuti testuali ottenuti attraverso il riconoscimento ottico dei caratteri (OCR). Altri tipi di oggetti che sono stati considerati sono scansioni ad alta risoluzione di manoscritti e audio vocale. Per qualificarsi, le risorse dovevano essere direttamente disponibili nella loro forma grezza e non avere restrizioni legali per il riutilizzo. Attualmente, 22 collezioni contenenti circa 135.000 beni del patrimonio culturale sono state identificate come conformi a questi criteri.
Strumenti collegati per l'elaborazione senza soluzione di continuità
Dopo aver completato la selezione, CLARIN ha istituito un meccanismo per il recupero regolare dei metadati per le collezioni selezionate. Una volta recuperati, i metadati vengono inseriti nel catalogo delle risorse linguistiche di CLARIN, il Virtual Language Observatory (VLO).
Subito, possiamo vedere che le risorse appena introdotte forniscono un contributo sostanziale al numero di risultati di ricerca rilevanti per determinate query. Ad esempio, alla ricerca di risorse di testo slovene, quasi tutti gli oltre 73 000 risultati provengono da un fornitore di dati Europeana, in questo caso la biblioteca digitale della Slovenia. Analogamente, la disponibilità di risorse testuali ungheresi e polacche è stata notevolmente migliorata.
Oltre a offrire ai ricercatori un modo familiare di scoprire i beni del patrimonio culturale rilevanti per la loro ricerca, il VLO fornisce anche un percorso diretto per l'analisi delle risorse scoperte. Ad esempio, questo opuscolo del XVIII secolo, offerto in formato PDF con testo integrale incorporato dalla Irish Manuscripts Commission e dalla Oireachtas Library, è ora reperibile tramite il VLO.
Andando alla vista Risorse e selezionando l'opzione Processo con il pannello delle risorse linguistiche, viene visualizzato un elenco di strumenti invocabili - nove al momento della scrittura. Tra le opzioni ci sono l'analisi grammaticale attraverso la catena di analisi delle dipendenze di Weblicht e la suite Voyant per l'analisi del testo assistita da computer. Si noti che, sebbene l'LRS possa essere richiamato per qualsiasi risorsa, non dispone di strumenti collegati per tutti i tipi di lingua o di risorsa e che nella versione corrente si applica una limitazione delle dimensioni del file. Una prossima versione vedrà questa limitazione revocata.

I nuovi contenuti integrati permetteranno di sfruttare ulteriormente il potenziale
Ora che è stata raggiunta l'integrazione di qualità produttiva di una vasta selezione di risorse di buona qualità e ben descritte, possiamo vedere i contorni del potenziale di tale integrazione su scala più ampia. Gli attuali sforzi per rendere disponibili contenuti full-text per grandi collezioni di giornali digitalizzati nel progetto Europeana Newspapers rendono probabile che questo potenziale sarà ulteriormente realizzato su larga scala nel prossimo futuro. Inoltre, CLARIN procederà a valutare ulteriori collezioni al di là del "frutto a bassa pendenza" e mirerà a continuare ad espandere il volume delle risorse del patrimonio culturale a portata di mano dei ricercatori.
Cerca, trova ed elabora le risorse del patrimonio culturale full-text con il VLO ora!
Se sei curioso di conoscere le collezioni disponibili nell'Osservatorio del linguaggio virtuale e vuoi scoprire quali strumenti sono disponibili per elaborarle, vai semplicemente su vlo.clarin.eu, inserisci alcuni termini di ricerca e inizia a esplorare.
