Explorarea de noi resurse în cadrul Observatorului limbajului virtual al CLARIN

Publicat 15 octombrie 2020 de

Twan Goosen (CLARIN ERIC)

Observatorul limbajului virtual

CLARIN este o infrastructură de cercetare care își propune să sprijine cercetătorii din domeniul științelor umaniste și sociale prin asigurarea accesibilității resurselor și instrumentelor lingvistice digitale din întreaga Europă și din afara acesteia printr-un mediu online unic. În calitate de parteneri în infrastructura de servicii digitale (ISD) a Europeana, Europeana și CLARIN colaborează pentru a integra conținutul patrimoniului cultural în infrastructura CLARIN. De la integrarea pilot inițială din 2017, CLARIN a actualizat și a extins periodic selecția obiectelor de patrimoniu cultural pe care le include în Observatorul limbajului virtual (VLO). Acest serviciu de căutare și descoperire online se concentrează pe nevoile cercetătorilor care caută resurse lingvistice și este integrat în infrastructura CLARIN mai largă.

Noi resurse pentru cercetători

O parte esențială a acestei integrări este îmbunătățirea accesului utilizatorilor la posibilitățile de analiză și prelucrare online pentru orice resursă găsită prin intermediul VLO. Astfel de funcționalități sunt disponibile pentru o gamă largă de resurse ale patrimoniului cultural „recoltate” prin Europeana, de la manuscrise din epoca renascentistă și ziare digitalizate până la cărți istorice pentru copii și înregistrări de istorie orală.

În aprilie 2019, Curtea a scris despre prima integrare a resurselor. Am arătat un exemplu puternic al modului în care oamenii pot procesa o resursă lingvistică direct din browserul lor cu câteva clicuri după ce au descoperit-o. În acel moment, aproximativ 135 000 de înregistrări proveneau de la Europeana și erau incluse în VLO. De atunci, am efectuat două iterații suplimentare de selecție și integrare, rezultând peste 275.000 de înregistrări de la Europeana, care este mai mult decât orice alt furnizor individual de înregistrări de metadate în prezent în VLO. Mai jos, prezentăm două exemple suplimentare de resurse care sunt disponibile în prezent și demonstrăm modul în care acestea pot fi prelucrate în continuare.

„O kimmeryjskich pomnikach w Krymie”

"Okimmeryjskich pomnikach w Krymie", este o carte poloneză din 1882, furnizată de Federacja Bibliotek Cyfrowych ca PDF, cu conținutul său complet de text disponibil ca urmare a OCR (recunoașterea optică a caracterelor). După cum arată animația de mai jos, cineva care utilizează VLO poate explora opțiunile de procesare selectând un link către un fișier individual și procesându-l cu tabloul de distribuție a resurselor lingvistice. Pentru această înregistrare, sunt disponibile o varietate de instrumente interesante de procesare a limbajului natural, majoritatea furnizate de consorțiul polonez CLARIN-PL.

Lingviștii computaționali ar putea dori să vadă rezultatul diferitelor tipuri de analize lingvistice disponibile, în timp ce cercetătorii umaniști ar putea găsi interesant să exploreze rezultatul extractorului de cuvinte cheie, care oferă o listă clasată a subiectelor detectate automat ca fiind relevante pentru text. Instrumentul care oferă acest tip de analiză pentru limba polonă este ReSpa. Acesta poate fi pornit direct de la tabloul de distribuție și, făcând acest lucru, cercetătorii pot obține rapid o înțelegere a conținutului unei lucrări fără a o deschide! Acest lucru poate fi util și pentru cei care nu citesc limba polonă, deoarece lista de subiecte poate fi tradusă cu ușurință utilizând un instrument generic de traducere a textului, cum ar fi Google Translate. Pentru acest exemplu, putem afla în câteva minute că, pe baza conținutului cărții, subiectul său principal este monumentele.

„Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland”

Al doilea exemplu este o carte digitalizată pentru copii din secolul al XIX-lea, pusă la dispoziție de Biblioteca Națională a Țărilor de Jos: „Eentheepartijtje van Mevrouw Poes: eene vertelling uit Katsland'(în engleză). Pentru această resursă este disponibil un link direct către un PDF. Pe lângă scanările ilustrațiilor bogate și a poveștii, acesta codifică, de asemenea, întregul conținut al cărții ca text care poate fi citit de mașină.

Imagine

Utilizând Tabloul de distribuție a resurselor lingvistice, un utilizator poate afla că instrumentul Voyant pentru citirea la distanță este o opțiune de procesare disponibilă. Odată ce resursa este încărcată în Voyant, textul este prezentat alături de diferite valori și un set de instrumente care permit unui savant să efectueze analize cantitative ale termenilor din text, ca în exemplul de mai jos.

Imagine

Acest corpus are 1 document cu 2.836 de cuvinte totale și 1.010 forme unice de cuvinte. Creat în urmă cu 3 secunde. Densitatea vocabularului: 0.356. Cuvinte medii pe propoziție: 32.2. Cele mai frecvente cuvinte din corpus: mevrouw (49); poes (38); domnișoară (18); teepartijtje (17); Monsieur (14 ani).

Aflați mai multe

Alte colecții interesante adăugate de la ultimul nostru raport pe care le puteți explora acum prin intermediul VLO includ:

Ziare și periodice digitalizate de la Biblioteca Digitală din Slovenia, Federacja Bibliotek Cyfrowych (Polonia) și Biblioteca Publică din Varna (Bulgaria)
Cărți de călătorie de la Biblioteca Digitală din Slovenia
Manuscrise din epoca renascentistă de la Opera del Vocabolario Italiano a Consiliului Național Italian de Cercetare
Înregistrări ale istoriei orale de la Consiliul Județean Monaghan și University College Cork (Irlanda)

Dacă sunteți curioși cu privire la acestea și la multe alte colecții disponibile în Observatorul limbajului virtual și doriți să explorați instrumentele disponibile pentru analizarea și prelucrarea acestora, vizitați vlo.clarin.eu, introduceți câțiva termeni de căutare și începeți să explorați!