L-Osservatorju tal-Lingwa Virtwali
CLARIN hija infrastruttura tar-riċerka li għandha l-għan li tappoġġa lir-riċerkaturi fl-istudji umanistiċi u fix-xjenzi soċjali billi tagħmel ir-riżorsi u l-għodod tal-lingwa diġitali mill-Ewropa kollha u lil hinn minnha aċċessibbli permezz ta’ ambjent online uniku ta’ reġistrazzjoni. Bħala sħab fl-Infrastruttura ta’ Servizzi Diġitali tal-Europeana (DSI), l-Europeana u l-CLARIN qed jaħdmu flimkien biex jinkorporaw il-kontenut tal-wirt kulturali fl-infrastruttura tal-CLARIN. Minn integrazzjoni pilota inizjali fl-2017, il-CLARIN aġġornat u estendiet regolarment l-għażla ta’ oġġetti ta’ wirt kulturali li tinkludi fl-Osservatorju tal-Lingwa Virtwali (VLO) tagħha. Dan is-servizz ta’ tiftix u skoperta online jiffoka fuq il-ħtiġijiet tal-akkademiċi li qed ifittxu riżorsi lingwistiċi, u huwa integrat fl-infrastruttura usa’ tal-CLARIN.
Riżorsi ġodda għar-riċerkaturi
Parti ewlenija ta’ din l-integrazzjoni hija t-titjib tal-aċċess tal-utenti għall-analiżi online u l-possibbiltajiet ta’ pproċessar għal kwalunkwe riżorsa li tinstab permezz tal-VLO. Tali funzjonalitajiet huma disponibbli għal varjetà wiesgħa ta’ riżorsi tal-wirt kulturali “maħsula” permezz tal-Europeana, li jvarjaw minn manuskritti tal-era tar-rinaxximent u gazzetti diġitalizzati għal kotba storiċi tat-tfal u reġistrazzjonijiet tal-istorja orali.
F’April 2019, ktibna dwar l-ewwel integrazzjoni tar-riżorsi. Aħna wrejna eżempju qawwi ta’ kif in-nies jistgħu jipproċessaw riżorsa lingwistika direttament mill-browser tagħhom bi ftit klikks wara li jiskopruha. F’dak il-punt, madwar 135 000 rekord kienu nkisbu minn Europeana u ġew inklużi fil-VLO. Minn dak iż-żmien ’l hawn, wettaqna żewġ iterazzjonijiet addizzjonali ta’ għażla u integrazzjoni, li rriżultaw f’aktar minn 275,000 rekord minn Europeana, li huwa aktar minn kwalunkwe fornitur individwali ieħor ta’ rekords ta’ metadata li bħalissa jinsabu fil-VLO. Hawn taħt, aħna nippreżentaw żewġ eżempji addizzjonali ta’ riżorsi li bħalissa huma disponibbli, u nuru kif dawn jistgħu jiġu pproċessati aktar.
“O kimmeryjskich pomnikach w Krymie”
Okimmeryjskich pomnikach w Krymie,huwa ktieb Pollakk mill-1882, ipprovdut mill-Federacja Bibliotek Cyfrowych bħala PDF, bil-kontenut sħiħ tat-test tiegħu disponibbli bħala riżultat tal-OCR (rikonoxximent tal-karattru ottiku). Kif turi l-animazzjoni ta’ hawn taħt, xi ħadd li juża l-VLO jista’ jesplora l-għażliet tal-ipproċessar billi jagħżel link għal fajl individwali u jipproċessah bl-Iswiċċbord tar-Riżorsi Lingwistiċi. Għal dan ir-rekord, varjetà ta 'għodod interessanti għall-ipproċessar tal-lingwa naturali huma disponibbli, ħafna minnhom ipprovduti mill-konsorzju Pollakk CLARIN-PL.
Il-lingwisti komputazzjonali jistgħu jkunu jridu jaraw ir-riżultat tad-diversi tipi ta’ analiżijiet lingwistiċi disponibbli, filwaqt li l-akkademiċi tal-istudji umanistiċi jistgħu jsibuha interessanti li jesploraw l-output tal-estrattur tal-kliem ewlieni, li jipprovdi lista kklassifikata ta’ suġġetti identifikati awtomatikament bħala rilevanti għat-test. L-għodda li toffri dan it-tip ta’ analiżi għall-Pollakk hija ReSpa. Jista 'jinbeda direttament mill-Iswiċċbord, u billi jagħmlu dan ir-riċerkaturi jistgħu jiksbu malajr fehim tal-kontenut ta' xogħol mingħajr ma jiftħuh! Dan jista’ jkun ta’ għajnuna wkoll għal dawk li ma jaqrawx il-Pollakk, peress li l-lista tas-suġġetti tista’ faċilment tiġi tradotta bl-użu ta’ għodda ġenerika għat-traduzzjoni tat-test bħal Google Translate. Għal dan l-eżempju, nistgħu nsibu fi ftit minuti li, abbażi tal-kontenut tal-ktieb, is-suġġett ewlieni tiegħu huwa monumenti.

“Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland”
It-tieni eżempju tagħna huwa ktieb diġitalizzat tat-tfal tas-seklu 19 ipprovdut mil-Librerija Nazzjonali tan-Netherlands: Eentheepartijtje van Mevrouw Poes: eene vertelling uit Katsland'. Link diretta għal PDF hija disponibbli għal din ir-riżorsa. Minbarra l-iskans tal-illustrazzjonijiet rikki u l-istorja, huwa jikkodifika wkoll il-kontenut sħiħ tal-ktieb bħala test li jinqara mill-magni.
Immaġni
Bl-użu tal-Iswiċċbord tar-Riżorsi tal-Lingwa, utent jista 'jsir jaf li l-għodda tal-qari mill-bogħod Voyant hija għażla ta' pproċessar disponibbli. Ladarba r-riżorsa titgħabba f’Voyant, it-test jiġi ppreżentat ħdejn diversi metriċi u sett ta’ għodod li jippermettu lil studjuż iwettaq analiżijiet kwantitattivi tat-termini fit-test, bħal fl-eżempju ta’ hawn taħt.
Immaġni
Dan il-corpus għandu dokument wieħed b'2,836 kelma totali u 1,010 forma ta 'kelma unika. Maħluq 3 sekondi ilu. Densità tal-vokabularju: 0.356. Kliem medju għal kull sentenza: 32.2. L-iktar kliem frekwenti fil-corpus: mevrouw (49); poes (38); makemoiselle (18); l-epartijtje (17); monsjeur (14).
Skopri aktar
Xi kollezzjonijiet interessanti oħra miżjuda mill-aħħar rapport tagħna li issa tista’ tesplora permezz tal-VLO jinkludu:
Gazzetti u perjodiċi diġitalizzati mil-Librerija Diġitali tas-Slovenja, Federacja Bibliotek Cyfrowych (il-Polonja) u l-Librerija Pubblika ta’ Varna (il-Bulgarija)
Kotba tal-ivvjaġġar mil-Librerija Diġitali tas-Slovenja
Manuskritti tal-era tar-rinaxximent mill-Opera del Vocabolario Italiano tal-Kunsill Nazzjonali tar-Riċerka Taljan
Rekords tal-istorja orali mill-Kunsill tal-Kontea ta’ Monaghan u mill-Kulleġġ Universitarju ta’ Cork (l-Irlanda)
Jekk inti kurjuż dwar dawn u l-ħafna kollezzjonijiet oħra disponibbli fl-Osservatorju tal-Lingwa Virtwali, u tixtieq tesplora l-għodod disponibbli għall-analiżi u l-ipproċessar tagħhom, żur vlo.clarin.eu, daħħal xi termini ta’ tiftix u ibda esplora!
