Virtuaalse keele vaatluskeskus
CLARIN on teadustaristu, mille eesmärk on toetada humanitaar- ja sotsiaalteaduste valdkonna teadlasi, muutes digitaalsed keeleressursid ja -vahendid kogu Euroopast ja mujalt kättesaadavaks ühtse veebikeskkonna kaudu. Europeana ja CLARIN teevad Europeana digiteenuste taristu partneritena koostööd, et lõimida kultuuripärandi sisu CLARINi taristusse. Alates esialgsest katselisest integreerimisest 2017. aastal on CLARIN korrapäraselt ajakohastanud ja laiendanud oma virtuaalkeele vaatluskeskusesse (VLO) lisatud kultuuripärandi objektide valikut. See veebipõhine otsingu- ja avastamisteenus keskendub keeleressursse otsivate teadlaste vajadustele ja on integreeritud laiemasse CLARINi infrastruktuuri.
Uued ressursid teadlastele
Integratsiooni oluline osa on parandada kasutajate juurdepääsu veebipõhisele analüüsile ja töötlemisvõimalustele kõigi VLO kaudu leitud ressursside puhul. Sellised funktsioonid on kättesaadavad paljude Europeana kaudu „korjatud“ kultuuripärandi ressursside jaoks, alates renessansiaegsetest käsikirjadest ja digiteeritud ajalehtedest kuni ajalooliste lasteraamatute ja suuliste ajaloosalvestisteni.
2019. aasta aprillis kirjutasime esimesest ressursside integreerimisest. Näitasime võimsat näidet selle kohta, kuidas inimesed saavad keeleressurssi töödelda otse oma brauserist mõne klõpsuga pärast selle avastamist. Selleks ajaks oli Europeanast hangitud ja VLO-sse lisatud umbes 135 000 kirjet. Sellest ajast alates oleme läbi viinud kaks täiendavat valiku ja integreerimise iteratsiooni, mille tulemuseks on enam kui 275 000 kirjet Europeanast, mis on rohkem kui ükski teine praegu VLO-s olev metaandmete kirjete pakkuja. Allpool esitame kaks täiendavat näidet praegu kättesaadavate ressursside kohta ja näitame, kuidas neid edasi töödelda.
„O kimmeryjskich pomnikach w Krymie“
„Okimmeryjskich pomnikach w Krymie”on 1882. aastast pärinev Poola raamat, mida pakub Federacja Bibliotek Cyfrowych PDF-vormingus ja mille täistekst on kättesaadav OCRi (optilise märgituvastuse) tulemusena. Nagu alltoodud animatsioon näitab, saab keegi, kes kasutab VLO-d, uurida töötlemisvõimalusi, valides lingi isiklikule failile ja töödeldes seda keeleressursside kommutaatoriga. Selle kirje jaoks on saadaval mitmesuguseid huvitavaid loomuliku keele töötlemise vahendeid, millest enamikku pakub Poola CLARIN-PL konsortsium.
Arvutuslingvistid võivad soovida näha erinevate keeleanalüüside tulemusi, samas kui humanitaarteadlastel võib olla huvitav uurida märksõnatõmbaja väljundit, mis pakub järjestatud loendit teemadest, mis automaatselt tuvastatakse teksti jaoks asjakohastena. Tööriist, mis pakub seda tüüpi analüüsi poola keeles, on ReSpa. Seda saab alustada otse Switchboardist ja seda tehes saavad teadlased kiiresti mõista töö sisu ilma seda isegi avamata! See võib olla abiks ka neile, kes poola keelt ei oska, sest teemaloendit on lihtne tõlkida üldise tekstitõlkevahendi, näiteks Google Translate abil. Selle näite puhul saame mõne minuti jooksul teada, et raamatu sisu põhjal on selle peamine teema mälestised.

„Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland“
Teine näide on digiteeritud 19. sajandi lasteraamat, mida pakub Madalmaade Rahvusraamatukogu: „Eentheepartijtje van Mevrouw Poes: eene vertelling uit Katsland'. Selle ressursi jaoks on olemas otselink PDF-failile. Lisaks rikaste illustratsioonide ja loo skaneerimisele kodeerib see ka kogu raamatu sisu masinloetava tekstina.
Pilt
Keeleressursside kommutaatori abil saab kasutaja teada, et Voyanti kauglugemise tööriist on saadaval töötlemisvõimalus. Kui ressurss on Voyanti laaditud, esitatakse tekst lisaks erinevatele mõõdikutele ja tööriistadele, mis võimaldavad teadlasel tekstis sisalduvaid termineid kvantitatiivselt analüüsida, nagu allpool toodud näites.
Pilt
Selles korpuses on 1 dokument, milles on kokku 2836 sõna ja 1010 unikaalset sõnavormi. Loodud 3 sekundit tagasi. Sõnavara tihedus: 0.356. Keskmine sõna lause kohta: 32.2. Kõige sagedasemad sõnad korpuses: mevrouw (49); luuletused (38); mademoiselle (18); theepartijtje (17); monsieur (14).
Uuri lähemalt
Mõned muud huvitavad kogud, mis on lisatud pärast meie viimast aruannet, mida saate nüüd VLO kaudu uurida, on järgmised:
Sloveenia digitaalraamatukogu, Federacja Bibliotek Cyfrowychi (Poola) ja Varna avaliku raamatukogu (Bulgaaria) digiteeritud ajalehed ja perioodikaväljaanded
Reisiraamatud Sloveenia digitaalsest raamatukogust
Renessansiajastu käsikirjad Itaalia riikliku teadusnõukogu ooperist „Opera del Vocabolario Italiano“
Monaghani maavolikogu ja Corki ülikoolikolledži (Iirimaa) suulised ajaloolised ülestähendused
Kui olete huvitatud nendest ja paljudest teistest virtuaalkeele vaatluskeskuses kättesaadavatest kogudest ning soovite tutvuda nende analüüsimiseks ja töötlemiseks kättesaadavate vahenditega, külastage veebisaiti vlo.clarin.eu, sisestage mõned otsingusõnad ja hakake uurima!
