Virtualni jezični opservatorij
CLARIN je istraživačka infrastruktura čiji je cilj pružiti potporu istraživačima u humanističkim i društvenim znanostima tako što će digitalne jezične resurse i alate iz cijele Europe i šire učiniti dostupnima putem jedinstvenog internetskog okruženja za prijavu. Kao partneri u infrastrukturi digitalnih usluga Europeane (DSI), Europeana i CLARIN surađuju na uključivanju sadržaja kulturne baštine u infrastrukturu CLARIN-a. Od početne pilot-integracije 2017. CLARIN redovito ažurira i proširuje odabir predmeta kulturne baštine koje uključuje u svoj Virtualni jezični opservatorij (VLO). Ova internetska usluga pretraživanja i otkrivanja usmjerena je na potrebe znanstvenika koji traže jezične resurse i integrirana je u širu infrastrukturu CLARIN-a.
Nova sredstva za istraživače
Ključni dio ove integracije je poboljšanje pristupa korisnika online analizi i mogućnostima obrade za bilo koji resurs pronađen putem VLO-a. Takve su funkcije dostupne za širok raspon resursa kulturne baštine koji su „ubrani” putem Europeane, od rukopisa iz renesansnog doba i digitaliziranih novina do povijesnih dječjih knjiga i zapisa usmene povijesti.
U travnju 2019. pisali smo o prvoj integraciji resursa. Pokazali smo snažan primjer kako ljudi mogu obraditi jezični resurs izravno iz svog preglednika s nekoliko klikova nakon što ga otkriju. U tom je trenutku oko 135.000 zapisa pribavljeno iz Europeane i uključeno u VLO. Od tada smo proveli dvije dodatne iteracije odabira i integracije, što je rezultiralo s više od 275.000 zapisa iz Europeane, što je više od bilo kojeg drugog pojedinačnog pružatelja zapisa metapodataka trenutno u VLO-u. U nastavku predstavljamo dva dodatna primjera resursa koji su trenutačno dostupni i pokazujemo kako se mogu dalje obrađivati.
„O kimmeryjskich pomnikach w Krymie”
'O kimmeryjskich pomnikach w Krymie',poljska je knjiga iz 1882. godine koju je Federacja Bibliotek Cyfrowych dala kao PDF, a njezin cjeloviti tekstualni sadržaj dostupan je kao rezultat OCR-a (optička prepoznatljivost znakova). Kao što pokazuje animacija u nastavku, netko tko koristi VLO može istražiti mogućnosti obrade tako da odabere poveznicu na pojedinačnu datoteku i obradi je pomoću preklopne ploče jezičnih resursa. Za ovu evidenciju dostupan je niz zanimljivih alata za obradu prirodnog jezika, od kojih većinu osigurava poljski konzorcij CLARIN-PL.
Računalni lingvisti možda bi željeli vidjeti rezultate različitih dostupnih vrsta jezičnih analiza, dok bi znanstvenici humanističkih znanosti mogli smatrati zanimljivim istražiti izlaz iz izvađivača ključnih riječi, koji pruža rangirani popis tema koje se automatski detektiraju kao relevantne za tekst. Alat koji nudi ovu vrstu analize za poljski je ReSpa. Može se pokrenuti izravno iz Switchboarda, a time istraživači mogu brzo steći razumijevanje sadržaja djela, a da ga čak i ne otvore! To može biti korisno i onima koji ne čitaju poljski jer se popis tema može lako prevesti s pomoću generičkog alata za prevođenje teksta kao što je Google Translate. Za ovaj primjer, u roku od nekoliko minuta možemo saznati da je, na temelju sadržaja knjige, njegova glavna tema spomenici.

„Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland”
Drugi je primjer digitalizirana dječja knjiga iz 19. stoljeća koju je objavila Nizozemska nacionalna knjižnica: Eentheepartijtje van Mevrouw Poes: Eene vertelling uit Katsland'. Za ovaj resurs dostupna je izravna poveznica na PDF. Osim skeniranja bogatih ilustracija i priče, ona također kodira cijeli sadržaj knjige kao strojno čitljiv tekst.
Slika
Korištenjem Switchboarda jezičnih resursa korisnik može saznati da je alat za čitanje na daljinu Voyant dostupna opcija obrade. Nakon što se resurs učita u Voyant, tekst se prikazuje uz različite metrike i skup alata koji omogućuju znanstvenicima da izvrše kvantitativne analize pojmova unutar teksta, kao u primjeru u nastavku.
Slika
Ovaj korpus ima 1 dokument s 2.836 riječi i 1.010 jedinstvenih oblika riječi. Izrađeno prije 3 sekunde. Gustoća rječnika: 0.356. Prosječne riječi po rečenici: 32.2. Najčešće riječi u korpusu: mevrouw (49); poes (38); mademoiselle (18); epartijtje (17); Gospodin (14.).
Saznajte više
Neke druge zanimljive zbirke dodane od našeg posljednjeg izvješća koje sada možete istražiti putem VLO-a uključuju:
Digitalizirane novine i časopisi iz Digitalne knjižnice Slovenije, Federacje Bibliotek Cyfrowych (Poljska) i Javne knjižnice Varna (Bugarska)
Putopisne knjige iz Digitalne knjižnice Slovenije
Rukopisi iz razdoblja renesanse iz Opere del Vocabolario Italiano talijanskog Nacionalnog istraživačkog vijeća
Zapisi iz usmene povijesti Vijeća okruga Monaghan i Sveučilišnog koledža Cork (Irska)
Ako vas zanimaju ove i mnoge druge zbirke dostupne u Virtualnom jezičnom opservatoriju i želite istražiti dostupne alate za njihovu analizu i obradu, posjetite vlo.clarin.eu, unesite neke pojmove za pretraživanje i počnite istraživati!
