Virtuālā valodu observatorija
CLARIN ir pētniecības infrastruktūra, kuras mērķis ir atbalstīt pētniekus humanitārajās un sociālajās zinātnēs, padarot pieejamus digitālos valodu resursus un rīkus no visas Eiropas un ārpus tās, izmantojot vienotu pierakstīšanās tiešsaistes vidi. Europeana un CLARIN kā Europeana digitālo pakalpojumu infrastruktūras (DSI) partneri sadarbojas, lai kultūras mantojuma saturu integrētu CLARIN infrastruktūrā. Kopš sākotnējās izmēģinājuma integrācijas 2017. gadā CLARIN ir regulāri atjauninājis un paplašinājis kultūras mantojuma objektu atlasi, ko tas ietver savā Virtuālajā valodu observatorijā (VLO). Šis tiešsaistes meklēšanas un atklāšanas pakalpojums ir vērsts uz to zinātnieku vajadzībām, kuri meklē valodas resursus, un ir integrēts plašākā CLARIN infrastruktūrā.
Jauni resursi pētniekiem
Būtiska šīs integrācijas daļa ir lietotāju piekļuves uzlabošana tiešsaistes analīzes un apstrādes iespējām attiecībā uz visiem resursiem, kas atrasti, izmantojot VLO. Šādas funkcijas ir pieejamas plašam kultūras mantojuma resursu klāstam, kas "iegūti" Europeana, sākot no renesanses laikmeta manuskriptiem un digitalizētiem laikrakstiem līdz bērnu vēstures grāmatām un mutiskiem vēstures ierakstiem.
2019. gada aprīlī mēs rakstījām par pirmo resursu integrāciju. Mēs parādījām spēcīgu piemēru tam, kā cilvēki var apstrādāt valodas resursu tieši no savas pārlūkprogrammas ar dažiem klikšķiem pēc tā atklāšanas. Tobrīd aptuveni 135 000 ierakstu tika iegūti no Europeana un iekļauti VLO. Kopš tā laika mēs esam veikuši divas papildu atlases un integrācijas iterācijas, kā rezultātā no Europeana ir iegūti vairāk nekā 275 000 ierakstu, kas ir vairāk nekā jebkurš cits individuāls metadatu ierakstu sniedzējs, kurš pašlaik darbojas VLO. Turpmāk ir sniegti divi papildu piemēri par resursiem, kas pašlaik ir pieejami, un parādīts, kā tos var turpmāk apstrādāt.
“O kimmeryjskich pomnikach w Krymie”
"O kimmeryjskich pomnikach w Krymie" ir 1882. gada poļu grāmata, ko sagatavojis Federacja Bibliotek Cyfrowych PDF formātā, un tās pilna teksta saturs ir pieejams OCR (optiskās rakstzīmju atpazīšanas) rezultātā. Kā parādīts tālāk redzamajā animācijā, kāds, kas izmanto VLO, var izpētīt apstrādes iespējas, atlasot saiti uz atsevišķu failu un apstrādājot to ar valodas resursu komutatoru. Šim ierakstam ir pieejami dažādi interesanti dabiskās valodas apstrādes rīki, no kuriem lielāko daļu nodrošina Polijas CLARIN-PL konsorcijs.
Valodu skaitļošanas speciālisti, iespējams, vēlēsies redzēt dažādu pieejamo lingvistisko analīžu rezultātus, savukārt humanitāro zinātņu zinātniekiem varētu šķist interesanti izpētīt atslēgvārdu nosūcēja rezultātus, kas nodrošina sarindotu sarakstu ar tematiem, kas automātiski noteikti kā svarīgi tekstam. Rīks, kas piedāvā šāda veida analīzi poļu valodā, ir ReSpa. To var sākt tieši no sadales skapja, un, to darot, pētnieki var ātri iegūt izpratni par darba saturu, pat neatverot to! Tas var būt noderīgi arī tiem, kas nelasa poļu valodu, jo tematu sarakstu var viegli tulkot, izmantojot vispārēju teksta tulkošanas rīku, piemēram, Google Translate. Šajā piemērā dažu minūšu laikā mēs varam uzzināt, ka, pamatojoties uz grāmatas saturu, tās galvenā tēma ir pieminekļi.

“Een theepartijtje van Mevrouw Poes: Eene vertelling uit Katsland”
Otrs piemērs ir digitalizēta 19. gadsimta bērnu grāmata, ko sagatavojusi Nīderlandes Nacionālā bibliotēka: "Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland'. Šim resursam ir pieejama tieša saite uz PDF. Papildus bagātīgo ilustrāciju un stāsta skenēšanai tas arī kodē pilnu grāmatas saturu kā mašīnlasāmu tekstu.
Attēls
Izmantojot valodu resursu komutatoru, lietotājs var uzzināt, ka Voyant tāllasīšanas rīks ir pieejama apstrādes opcija. Kad resurss ir ielādēts Voyant, teksts tiek parādīts papildus dažādiem rādītājiem un rīku kopumam, kas ļauj zinātniekam veikt tekstā esošo terminu kvantitatīvu analīzi, kā parādīts turpmāk sniegtajā piemērā.
Attēls
Šajā korpusā ir 1 dokuments ar 2836 vārdu kopskaitu un 1010 unikālām vārdu formām. Izveidots pirms 3 sekundēm. Vārdu krājuma blīvums: 0.356. Vidēji vārdi vienā teikumā: 32.2. Visbiežāk sastopamie vārdi korpusā: mevrouw (49); poes (38); mademoiselle (18); teepartijtje (17); monsieur (14).
Uzzināt vairāk
Dažas citas interesantas kolekcijas, kas pievienotas kopš mūsu pēdējā ziņojuma, ko tagad varat izpētīt, izmantojot VLO, ir šādas:
Digitalizēti laikraksti un periodiskie izdevumi no Slovēnijas Digitālās bibliotēkas, Federacja Bibliotek Cyfrowych (Polija) un Varnas Publiskās bibliotēkas (Bulgārija)
Ceļojumu grāmatas no Slovēnijas Digitālās bibliotēkas
Renesanses laikmeta manuskripti no Itālijas Nacionālās pētniecības padomes Opera del Vocabolario Italiano
Mutvārdu vēstures ieraksti no Monaghan grāfistes padomes un Korkas Universitātes koledžas (Īrija)
Ja jūs interesē šīs un daudzas citas virtuālās valodas observatorijā pieejamās kolekcijas un vēlaties izpētīt to analīzei un apstrādei pieejamos rīkus, apmeklējiet vlo.clarin.eu, ievadiet dažus meklēšanas terminus un sāciet pētīt!
