Virtuaalikielen observatorio
CLARIN on tutkimusinfrastruktuuri, jonka tavoitteena on tukea humanististen tieteiden ja yhteiskuntatieteiden tutkijoita asettamalla eri puolilta Eurooppaa ja sen ulkopuolelta tulevat digitaaliset kieliresurssit ja -välineet saataville kertakirjautumisen verkkoympäristössä. Europeanan digitaalipalvelujen infrastruktuurin (DSI) kumppaneina Europeana ja CLARIN tekevät yhteistyötä sisällyttääkseen kulttuuriperintösisältöä CLARINin infrastruktuuriin. Vuonna 2017 toteutetun ensimmäisen pilottiintegraation jälkeen CLARIN on säännöllisesti päivittänyt ja laajentanut virtuaalikielen observatorionsa (VLO) kulttuuriperintökohteiden valikoimaa. Tämä online-haku- ja hakupalvelu keskittyy kieliresursseja etsivien tutkijoiden tarpeisiin, ja se on integroitu laajempaan CLARIN-infrastruktuuriin.
Uusia resursseja tutkijoille
Keskeinen osa tätä integrointia on parantaa käyttäjien pääsyä verkkoanalyysi- ja käsittelymahdollisuuksiin kaikille virtuaalisen yhteystoimiston kautta löydetyille resursseille. Tällaisia toimintoja on saatavilla monenlaisille Europeanan kautta "kerätyille" kulttuuriperintöresursseille renessanssiajan käsikirjoituksista ja digitoiduista sanomalehdistä historiallisiin lastenkirjoihin ja suullisen historian tallenteisiin.
Huhtikuussa 2019 kirjoitimme ensimmäisestä resurssi-integraatiosta. Näytimme tehokkaan esimerkin siitä, miten ihmiset voivat käsitellä kieliresurssia suoraan selaimestaan muutamalla napsautuksella sen löytämisen jälkeen. Tuolloin Europeanasta oli hankittu noin 135 000 tietuetta, jotka oli sisällytetty VLO:hon. Sittemmin olemme tehneet kaksi muuta valinnan ja integroinnin iteraatiota, jotka ovat johtaneet yli 275 000 Europeanan tietueeseen, mikä on enemmän kuin mikään muu yksittäinen metatietotietueiden toimittaja tällä hetkellä VLO: ssa. Alla esitämme kaksi muuta esimerkkiä tällä hetkellä käytettävissä olevista resursseista ja osoitamme, miten niitä voidaan käsitellä edelleen.
”O kimmeryjskich pomnikach w Krymie”
O kimmeryjskich pomnikach w Krymieon puolalainen kirja vuodelta 1882, jonka Federacja Bibliotek Cyfrowych on toimittanut PDF-tiedostona. Kuten alla oleva animaatio osoittaa, joku, joka käyttää VLO: ta, voi tutkia käsittelyvaihtoehtoja valitsemalla linkin yksittäiseen tiedostoon ja käsittelemällä sitä Language Resource Switchboardilla. Tätä varten on saatavilla erilaisia mielenkiintoisia luonnollisen kielen käsittelyvälineitä, joista suurin osa on puolalaisen CLARIN-PL-konsortion tarjoamia.
Laskennalliset lingvistijuristit saattavat haluta nähdä saatavilla olevien erityyppisten kielellisten analyysien tulokset, kun taas humanistiset tutkijat saattavat pitää mielenkiintoisena tutkia avainsananerottimen tuotosta, joka tarjoaa sijoittuneen luettelon aiheista, jotka havaitaan automaattisesti tekstin kannalta merkityksellisiksi. Työkalu, joka tarjoaa tämäntyyppisen analyysin puolan osalta, on ReSpa. Se voidaan aloittaa suoraan Switchboardista, ja näin tutkijat voivat nopeasti saada käsityksen teoksen sisällöstä edes avaamatta sitä! Tästä voi olla apua myös niille, jotka eivät lue puolaa, koska aiheluettelo voidaan helposti kääntää käyttämällä yleistä tekstinkääntämistyökalua, kuten Google Translatea. Tässä esimerkissä voimme selvittää muutamassa minuutissa, että kirjan sisällön perusteella sen pääaihe on monumentit.

”Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland”
Toinen esimerkkimme on Alankomaiden kansalliskirjaston digitoitu 1800-luvun lastenkirja: ”Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland'. Tästä resurssista on suora linkki PDF-tiedostoon. Rikkaiden kuvitusten ja tarinan skannausten lisäksi se myös koodaa kirjan koko sisällön koneellisesti luettavaksi tekstiksi.
Kuva
Kieliresurssien kytkintaulun avulla käyttäjä voi selvittää, että Voyant-etälukutyökalu on käytettävissä oleva käsittelyvaihtoehto. Kun resurssi on ladattu Voyantiin, teksti esitetään erilaisten mittareiden ja työkalujen vieressä, joiden avulla tutkija voi tehdä kvantitatiivisia analyysejä tekstin termeistä, kuten alla olevassa esimerkissä.
Kuva
Tässä korpuksessa on 1 asiakirja, jossa on yhteensä 2 836 sanaa ja 1 010 ainutlaatuista sanamuotoa. Luotu 3 sekuntia sitten. Sanastotiheys: 0.356. Keskimääräiset sanat lausetta kohti: 32.2. Yleisimmät sanat korpuksessa: mevrouw (49); palkokasvit (38); mademoiselle (18); theepartijtje (17); monsieur (14).
Lue lisää
Muita mielenkiintoisia kokoelmia, jotka on lisätty edellisen raporttimme jälkeen ja joita voit nyt tutkia VLO: n kautta, ovat:
Digitoidut sanoma- ja aikakauslehdet Slovenian digitaalisesta kirjastosta, Federacja Bibliotek Cyfrowychistä (Puola) ja Varnan julkisesta kirjastosta (Bulgaria)
Matkakirjat Slovenian digitaalisesta kirjastosta
Oral historia kirjaa Monaghan County Council ja University College Cork (Irlanti)
Jos olet kiinnostunut näistä ja monista muista virtuaalikielen observatorion kokoelmista ja haluat tutustua niiden analysointiin ja käsittelyyn käytettävissä oleviin työkaluihin, käy osoitteessa vlo.clarin.eu, kirjoita hakutermejä ja aloita tutkiminen!
