Virtualios kalbos observatorija
CLARIN yra mokslinių tyrimų infrastruktūra, kuria siekiama remti humanitarinių ir socialinių mokslų tyrėjus, užtikrinant, kad skaitmeniniai kalbos ištekliai ir priemonės iš visos Europos ir už jos ribų būtų prieinami per vieną prisijungimo internetinę aplinką. Kaip „Europeana“ skaitmeninių paslaugų infrastruktūros (DSI) partneriai, „Europeana“ ir CLARIN bendradarbiauja, kad kultūros paveldo turinys būtų integruotas į CLARIN infrastruktūrą. Nuo pradinio bandomojo integravimo 2017 m. CLARIN reguliariai atnaujino ir išplėtė kultūros paveldo objektų, kuriuos ji įtraukia į savo virtualiosios kalbos observatoriją (VLO), atranką. Ši internetinė paieškos ir paieškos paslauga orientuota į mokslininkų, ieškančių kalbos išteklių, poreikius ir yra integruota į platesnę CLARIN infrastruktūrą.
Nauji ištekliai tyrėjams
Svarbiausia šios integracijos dalis – pagerinti naudotojų prieigą prie visų VLO randamų išteklių internetinės analizės ir tvarkymo galimybių. Tokios funkcijos yra prieinamos įvairiems kultūros paveldo ištekliams, surinktiems per Europeaną, pradedant renesanso epochos rankraščiais ir suskaitmenintais laikraščiais ir baigiant istorinėmis vaikiškomis knygomis ir žodinės istorijos įrašais.
2019 m. balandžio mėn. rašėme apie pirmąją išteklių integraciją. Mes parodėme galingą pavyzdį, kaip žmonės gali apdoroti kalbos šaltinį tiesiogiai iš savo naršyklės keliais paspaudimais po to, kai jį atrado. Tuo metu iš Europeanos buvo gauta ir į VLO įtraukta apie 135 000 įrašų. Nuo to laiko atlikome du papildomus atrankos ir integravimo kartojimus, kurių rezultatas – daugiau kaip 275 000 „Europeanos“ įrašų, o tai yra daugiau nei bet kuris kitas atskiras šiuo metu VLO esantis metaduomenų įrašų teikėjas. Toliau pateikiame du papildomus šiuo metu turimų išteklių pavyzdžius ir parodome, kaip juos galima toliau tvarkyti.
„O kimmeryjskich pomnikach w Krymie“
„Okimmeryjskich pomnikach w Krymie“yra 1882 m. lenkiška knyga, kurią pateikė Federacja Bibliotek Cyfrowych PDF formatu, o visas jos tekstas pateikiamas pagal OCR (optinis simbolių atpažinimas). Kaip parodyta toliau pateiktoje animacijoje, kas nors, naudojantis VLO, gali ištirti apdorojimo parinktis, pasirinkdamas nuorodą į atskirą failą ir apdorodamas jį kalbos išteklių komutatoriumi. Šiam įrašui galima naudotis įvairiomis įdomiomis natūraliosios kalbos apdorojimo priemonėmis, kurių daugumą teikia Lenkijos CLARIN-PL konsorciumas.
Skaičiavimo lingvistai gali norėti pamatyti įvairių tipų kalbinių analizių rezultatus, o humanitarinių mokslų mokslininkams gali būti įdomu ištirti raktinių žodžių ištraukimo išvedinį, kuriame pateikiamas eiliškumo sąrašas temų, kurios automatiškai nustatomos kaip aktualios tekstui. Įrankis, siūlantis tokio pobūdžio analizę lenkų kalba, yra ReSpa. Jis gali būti pradėtas tiesiogiai iš "Switchboard", o tai darydami mokslininkai gali greitai suprasti darbo turinį, net jo neatidarydami! Tai taip pat gali būti naudinga tiems, kurie neskaito lenkų kalbos, nes temų sąrašą galima lengvai išversti naudojant bendrą teksto vertimo priemonę, pvz., „Google Translate“. Šiame pavyzdyje per kelias minutes galime sužinoti, kad, remiantis knygos turiniu, jos pagrindinė tema yra paminklai.

„Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland“
Antrasis pavyzdys – Nyderlandų nacionalinės bibliotekos parengta suskaitmeninta XIX a. vaikų knyga: „Eentheepartijtje van Mevrouw Poes: Eene vertelling uit Katsland". Šiame ištekliuje yra tiesioginė nuoroda į PDF. Be gausių iliustracijų ir istorijos skenavimo, jis taip pat užkoduoja visą knygos turinį kaip mašininio nuskaitymo tekstą.
Paveikslėlis
Naudodamiesi kalbos išteklių komutatoriumi, vartotojas gali sužinoti, kad nuotolinio skaitymo įrankis "Voyant" yra prieinama apdorojimo parinktis. Kai išteklius įkeliamas į "Voyant", tekstas pateikiamas šalia įvairių metrikos ir įrankių rinkinio, kuris leidžia mokslininkui atlikti kiekybinę teksto terminų analizę, kaip parodyta toliau pateiktame pavyzdyje.
Paveikslėlis
Šis tekstynas turi 1 dokumentą su 2836 iš viso žodžių ir 1 010 unikalių žodinių formų. Sukurta prieš 3 sekundes. Žodyno tankis: 0.356. Vidutinis žodžių skaičius sakinyje: 32.2. Dažniausiai pasitaikantys žodžiai korpuse: mevrouw (49); poes (38); mademoiselle (18); epartijtje (17); monsieur (14).
Sužinokite daugiau
Kai kurios kitos įdomios kolekcijos, pridėtos po mūsų paskutinės ataskaitos, kurias dabar galite ištirti per VLO, apima:
Skaitmeniniai laikraščiai ir periodiniai leidiniai iš Slovėnijos skaitmeninės bibliotekos, Federacja Bibliotek Cyfrowych (Lenkija) ir Varnos viešosios bibliotekos (Bulgarija)
Kelionių knygos iš Slovėnijos skaitmeninės bibliotekos
Renesanso epochos rankraščiai iš Italijos nacionalinės mokslinių tyrimų tarybos „Opera del Vocabolario Italiano“
Monaghano grafystės tarybos ir Korko universitetinio koledžo (Airija) žodinės istorijos įrašai
Jei domitės šiomis ir daugeliu kitų virtualiosios kalbos observatorijos kolekcijų ir norėtumėte susipažinti su turimomis jų analizės ir tvarkymo priemonėmis, apsilankykite svetainėje vlo.clarin.eu, įveskite kai kuriuos paieškos terminus ir pradėkite tyrinėti!
