Esplorare nuove risorse nell'Osservatorio del linguaggio virtuale di CLARIN

Pubblicato 15 ottobre 2020 di

Twan Goosen (CLARIN ERIC)

L' Osservatorio Lingua Virtuale

CLARIN è un'infrastruttura di ricerca che mira a sostenere i ricercatori nelle scienze umane e sociali rendendo accessibili le risorse e gli strumenti del linguaggio digitale da tutta Europa e oltre attraverso un unico ambiente online di accesso. In qualità di partner dell'infrastruttura di servizi digitali (DSI) di Europeana, Europeana e CLARIN collaborano per integrare i contenuti del patrimonio culturale nell'infrastruttura di CLARIN. Da una prima integrazione pilota nel 2017, CLARIN ha regolarmente aggiornato ed esteso la selezione dei beni del patrimonio culturale che include nel suo Virtual Language Observatory (VLO). Questo servizio di ricerca e scoperta online si concentra sulle esigenze degli studiosi alla ricerca di risorse linguistiche ed è integrato nella più ampia infrastruttura CLARIN.

Nuove risorse per i ricercatori

Una parte fondamentale di questa integrazione è migliorare l'accesso degli utenti alle possibilità di analisi ed elaborazione online per qualsiasi risorsa trovata attraverso il VLO. Tali funzionalità sono disponibili per un'ampia varietà di risorse del patrimonio culturale "raccolte" attraverso Europeana, che vanno dai manoscritti dell'epoca rinascimentale e dai giornali digitalizzati ai libri storici per bambini e alle registrazioni di storia orale.

Nell'aprile 2019 abbiamo scritto in merito alla prima integrazione delle risorse. Abbiamo mostrato un potente esempio di come le persone possono elaborare una risorsa linguistica direttamente dal proprio browser con pochi clic dopo averlo scoperto. A quel punto, circa 135.000 record erano stati acquistati da Europeana e inclusi nel VLO. Da allora, abbiamo effettuato due ulteriori iterazioni di selezione e integrazione, ottenendo oltre 275.000 record da Europeana, che è più di qualsiasi altro singolo fornitore di record di metadati attualmente nel VLO. Di seguito, presentiamo due esempi aggiuntivi di risorse attualmente disponibili e dimostriamo come possono essere elaborate ulteriormente.

"O kimmeryjskich pomnikach w Krymie"

'O kimmeryjskich pomnikach w Krymie', è un libro polacco del 1882, fornito dalla Federacja Bibliotek Cyfrowych come PDF, con il suo contenuto di testo completo disponibile come risultato di OCR (riconoscimento ottico dei caratteri). Come mostra l'animazione qui sotto, qualcuno che utilizza il VLO può esplorare le opzioni di elaborazione selezionando un collegamento a un singolo file ed elaborandolo con il Language Resource Switchboard. Per questo record, sono disponibili una varietà di interessanti strumenti di elaborazione del linguaggio naturale, la maggior parte dei quali forniti dal consorzio polacco CLARIN-PL.

I linguisti computazionali potrebbero voler vedere il risultato dei vari tipi di analisi linguistiche disponibili, mentre gli studiosi di scienze umane potrebbero trovare interessante esplorare l'output dell'estrattore di parole chiave, che fornisce una lista classificata di argomenti rilevati automaticamente come rilevanti per il testo. Lo strumento che offre questo tipo di analisi per il polacco è ReSpa. Può essere avviato direttamente dal centralino, e così facendo i ricercatori possono acquisire rapidamente una comprensione del contenuto di un'opera senza nemmeno aprirla! Ciò può essere utile anche per coloro che non leggono il polacco, in quanto l'elenco degli argomenti può essere facilmente tradotto utilizzando uno strumento di traduzione di testo generico come Google Translate. Per questo esempio, possiamo scoprire in pochi minuti che, in base al contenuto del libro, il suo argomento principale sono i monumenti.

«Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland»

Il nostro secondo esempio è un libro per bambini digitalizzato del XIX secolo fornito dalla Biblioteca nazionale dei Paesi Bassi: «Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland'. Per questa risorsa è disponibile un collegamento diretto a un PDF. Oltre alle scansioni delle ricche illustrazioni e della storia, codifica anche l'intero contenuto del libro come testo leggibile a macchina.

Immagine

Utilizzando il Language Resource Switchboard, un utente può scoprire che lo strumento di lettura a distanza Voyant è un'opzione di elaborazione disponibile. Una volta che la risorsa viene caricata in Voyant, il testo viene presentato accanto a varie metriche e a una serie di strumenti che consentono a uno studioso di effettuare analisi quantitative dei termini all'interno del testo, come nell'esempio seguente.

Immagine

Questo corpus ha 1 documento con 2.836 parole totali e 1.010 forme di parole uniche. Creato 3 secondi fa. Densità del vocabolario: 0.356. Parole medie per frase: 32.2. Parole più frequenti nel corpus: mevrouw (49); poes (38); mademoiselle (18); teepartijtje (17); Monsieur (14).

Scopri di più

Alcune altre interessanti collezioni aggiunte dal nostro ultimo rapporto che ora puoi esplorare tramite il VLO includono:

Giornali e periodici digitalizzati della Biblioteca digitale slovena, della Federacja Bibliotek Cyfrowych (Polonia) e della Biblioteca pubblica di Varna (Bulgaria)
Libri di viaggio della Biblioteca digitale della Slovenia
Manoscritti rinascimentali dell'Opera del Vocabolario del Consiglio Nazionale delle Ricerche
Documenti di storia orale del Consiglio della contea di Monaghan e dell'University College Cork (Irlanda)

Se siete curiosi di conoscere queste e molte altre collezioni disponibili nel Virtual Language Observatory, e volete esplorare gli strumenti disponibili per analizzarle ed elaborarle, visitate vlo.clarin.eu, inserite alcuni termini di ricerca e iniziate ad esplorare!