Virtualni jezikovni observatorij
CLARIN je raziskovalna infrastruktura, katere cilj je podpirati raziskovalce na področju humanistike in družboslovja z zagotavljanjem dostopa do digitalnih jezikovnih virov in orodij iz vse Evrope in zunaj nje prek enotnega spletnega okolja za prijavo. Europeana in CLARIN kot partnerja v infrastrukturi za digitalne storitve Europeana sodelujeta pri vključevanju vsebin kulturne dediščine v infrastrukturo CLARIN. CLARIN od začetne pilotne integracije leta 2017 redno posodablja in razširja izbor predmetov kulturne dediščine, ki jih vključuje v svoj virtualni jezikovni observatorij (VLO). Ta storitev spletnega iskanja in odkrivanja se osredotoča na potrebe učenjakov, ki iščejo jezikovne vire, in je vključena v širšo infrastrukturo CLARIN.
Novi viri za raziskovalce
Ključni del te integracije je izboljšanje dostopa uporabnikov do spletnih analiz in možnosti obdelave za vse vire, najdene prek VLO. Take funkcije so na voljo za najrazličnejše vire kulturne dediščine, „pridobljene“ prek Europeane, od rokopisov iz obdobja renesanse in digitaliziranih časopisov do zgodovinskih otroških knjig in posnetkov ustne zgodovine.
Aprila 2019 smo pisali o prvi integraciji virov. Pokazali smo močan primer, kako lahko ljudje obdelajo jezikovni vir neposredno iz svojega brskalnika z nekaj kliki po odkritju. Takrat je bilo iz Europeane pridobljenih približno 135 000 zapisov, ki so bili vključeni v VLO. Od takrat smo izvedli dve dodatni ponovitvi selekcije in integracije, kar je privedlo do več kot 275.000 zapisov iz Europeane, kar je več kot kateri koli drug posamezni ponudnik metapodatkovnih zapisov, ki so trenutno v VLO. V nadaljevanju predstavljamo dva dodatna primera virov, ki sta trenutno na voljo, in prikazujemo, kako jih je mogoče nadalje obdelati.
„O kimmeryjskich pomnikach w Krymie“
'O kimmeryjskich pomnikach w Krymie' je poljska knjiga iz leta 1882, ki jo je Federacja Bibliotek Cyfrowych zagotovila kot PDF, njena celotna vsebina besedila pa je na voljo kot rezultat OCR (optičnega prepoznavanja znakov). Kot prikazuje spodnja animacija, lahko nekdo, ki uporablja VLO, razišče možnosti obdelave tako, da izbere povezavo do posamezne datoteke in jo obdela s stikalno ploščo za jezikovne vire. Za ta zapis so na voljo različna zanimiva orodja za obdelavo naravnega jezika, ki jih večinoma zagotavlja poljski konzorcij CLARIN-PL.
Računalniški jezikoslovci bodo morda želeli videti rezultate različnih vrst jezikovnih analiz, ki so na voljo, humanističnim znanstvenikom pa bo morda zanimivo raziskati rezultat izvlečka ključnih besed, ki zagotavlja razvrščen seznam tem, ki so samodejno zaznane kot pomembne za besedilo. Orodje, ki ponuja tovrstno analizo za poljščino, je ReSpa. Lahko se začne neposredno iz stikalne plošče in s tem lahko raziskovalci hitro pridobijo razumevanje vsebine dela, ne da bi ga sploh odprli! To je lahko koristno tudi za tiste, ki ne berejo poljščine, saj je seznam tem mogoče zlahka prevesti z uporabo splošnega orodja za prevajanje besedil, kot je Google Translate. Za ta primer lahko v nekaj minutah ugotovimo, da je glede na vsebino knjige njena glavna tema spomeniki.

„Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland“
Naš drugi primer je digitalizirana otroška knjiga iz 19. stoletja, ki jo je zagotovila nizozemska nacionalna knjižnica: „Eentheepartijtje van Mevrouw Poes: eene vertelling uit Katsland'. Za ta vir je na voljo neposredna povezava do PDF-ja. Poleg skeniranja bogatih ilustracij in zgodbe kodira tudi celotno vsebino knjige kot strojno berljivo besedilo.
Slika
Z uporabo stikalne plošče za jezikovne vire lahko uporabnik ugotovi, da je orodje za oddaljeno branje Voyant na voljo kot možnost obdelave. Ko je vir naložen v Voyant, je besedilo predstavljeno poleg različnih metrik in nabora orodij, ki omogočajo učenjaku, da izvede kvantitativne analize izrazov v besedilu, kot v spodnjem primeru.
Slika
Ta korpus ima 1 dokument z 2.836 skupnimi besedami in 1.010 enoličnimi besednimi oblikami. Ustvarjeno pred 3 sekundami. Gostota besedišča: 0.356. Povprečne besede na stavek: 32.2. Najpogostejše besede v korpusu: mevrouw (49); poezija (38); mademoiselle (18); theepartijtje (17); monsieur (14).
Izvedite več
Nekatere druge zanimive zbirke, dodane od našega zadnjega poročila, ki jih lahko zdaj raziščete prek VLO, vključujejo:
Digitalizirani časopisi in revije iz Digitalne knjižnice Slovenije, Federacja Bibliotek Cyfrowych (Poljska) in Javne knjižnice Varna (Bolgarija)
Potovalne knjige iz Digitalne knjižnice Slovenije
rokopisi iz obdobja renesanse iz Opera del Vocabolario Italiano italijanskega nacionalnega raziskovalnega sveta
Zapisi iz ustne zgodovine grofijskega sveta Monaghan in univerzitetnega kolidža v Corku (Irska)
Če vas zanimajo te in številne druge zbirke, ki so na voljo v virtualnem jezikovnem observatoriju, in bi radi raziskali orodja, ki so na voljo za njihovo analizo in obdelavo, obiščite vlo.clarin.eu, vnesite nekaj iskalnih izrazov in začnite raziskovati!
