Kirjat, käsikirjoitukset, historialliset sanomalehdet ja monet muut tekstilliset kulttuuriperintökohteet (CHO) antavat arvokkaan panoksen monenlaisiin tutkimusaiheisiin. CLARINin tehtävänä on tarjota digitaalisia kieliresursseja kaikkien tieteenalojen tutkijoille, opiskelijoille ja kansalaistieteilijöille. Europeanan digitaalipalvelujen infrastruktuurin (DSI) kumppaneina Europeana ja CLARIN ovat tehneet yhteistyötä sisällyttääkseen kulttuuriperintöaineiston CLARINin infrastruktuuriin. CLARIN suoritti äskettäin pilottihankkeen aikana saatujen kokemusten perusteella ja Europeanan tarjoamien parannettujen levityspalvelujen ja metadatan laadun pohjalta uuden arvioinnin saatavilla olevista tietoaineistoista ja teki uuden valinnan. Valintaprosessissa keskityttiin koko tekstisisältöön, kuten digitoituihin kirjoihin, aikakauslehtiin ja sanomalehtiin, joiden tekstisisältö on saatu optisen merkintunnistuksen (OCR) avulla. Muita esineitä, joita myös harkittiin, ovat käsikirjoitusten ja puheäänen korkean resoluution skannaukset. Jotta resursseja voitaisiin käyttää, niiden oli oltava suoraan saatavilla käsittelemättömänä, eikä niiden uudelleenkäytölle ollut oikeudellisia rajoituksia. Tällä hetkellä 22 kokoelmaa, jotka sisältävät noin 135 000 kulttuuriperintökohdetta, on tunnistettu näiden kriteerien mukaisiksi.
Yhdistetyt työkalut saumattomaan käsittelyyn
Valinnan viimeistelyn jälkeen CLARIN otti käyttöön mekanismin valittujen kokoelmien metatietojen säännöllistä hakua varten. Kun metatiedot on haettu, ne syötetään CLARINin kieliaineistoluetteloon, virtuaaliseen kieliobservatorioon (VLO).
Suoraan sanottuna voidaan todeta, että äskettäin käyttöön otetuilla resursseilla on merkittävä vaikutus tiettyjen kyselyjen kannalta merkityksellisten hakutulosten määrään. Esimerkiksi slovenialaisia tekstiresursseja etsittäessä lähes kaikki yli 73 000 tulosta ovat peräisin Europeana-datan tarjoajalta, tässä tapauksessa Slovenian digitaalisesta kirjastosta. Myös unkarin- ja puolankielisten tekstiresurssien saatavuus on parantunut huomattavasti.
Sen lisäksi, että VLO tarjoaa tutkijoille tutun tavan löytää tutkimuksensa kannalta merkityksellisiä kulttuuriperintökohteita, se tarjoaa myös suoran polun löydettyjen resurssien analysointiin. Esimerkiksi tämä 1700-luvun pamfletti, jota Irlannin käsikirjoituskomissio ja Oireachtas-kirjasto tarjoavat PDF-tiedostona, johon on upotettu koko tekstisisältö, on nyt saatavilla VLO:n kautta.
Menemällä Resurssit-näkymään ja valitsemalla Prosessi, jossa on Kieliresurssien kytkin -vaihtoehto, näet luettelon kutsuttavista työkaluista - yhdeksän kirjoitushetkellä. Vaihtoehtoja ovat kieliopillinen analyysi Weblicht Dependency Parsing -ketjun kautta ja Voyant-ohjelmisto tietokoneavusteiseen tekstianalyysiin. Huomaa, että vaikka LRS:ää voidaan käyttää mille tahansa resurssille, siinä ei ole linkitettyjä työkaluja kaikille kieli- tai resurssityypeille ja että tiedostokokorajoitusta sovelletaan nykyisessä versiossa. Tulevassa versiossa tämä rajoitus poistetaan.

Uudella integroidulla sisällöllä voidaan edelleen hyödyntää potentiaalia
Nyt kun laaja valikoima laadukkaita ja hyvin kuvattuja resursseja on integroitu tuotannon laatuun, voimme nähdä tällaisen integroinnin potentiaalin laajemmassa mittakaavassa. Nykyiset pyrkimykset tuoda kokotekstisisältöä suurten digitoitujen sanomalehtien kokoelmien saataville Europeana Newspapers -hankkeessa tekevät todennäköiseksi, että tätä potentiaalia hyödynnetään edelleen merkittävässä mittakaavassa lähitulevaisuudessa. Lisäksi CLARIN arvioi muita kokoelmia kuin vain vähän roikkuvia hedelmiä ja pyrkii jatkuvasti laajentamaan tutkijoiden ulottuvilla olevien kulttuuriperintöresurssien määrää.
Hae, etsi ja prosessoi kokotekstistä kulttuuriperintöaineistoa VLO:n avulla nyt!
Jos olet kiinnostunut virtuaalikielen observatorion kokoelmista ja haluat tietää, mitä työkaluja niiden käsittelyyn on käytettävissä, siirry osoitteeseen vlo.clarin.eu, kirjoita hakutermejä ja aloita tutkiminen.
