Grāmatas, manuskripti, vēsturiskie laikraksti un daudzi citi teksta kultūras mantojuma objekti (CHO) sniedz vērtīgu ieguldījumu plašam pētniecības tematu klāstam. CLARIN misija ir padarīt digitālos valodu resursus pieejamus zinātniekiem, pētniekiem, studentiem un pilsoņu zinātniekiem no visām disciplīnām. Europeana un CLARIN kā Europeana digitālo pakalpojumu infrastruktūras (DSI) partneri ir sadarbojušies, lai kultūras mantojuma materiālus integrētu CLARIN infrastruktūrā. Pamatojoties uz izmēģinājuma projektā gūto pieredzi un Europeana piedāvātajiem uzlabotajiem izplatīšanas pakalpojumiem un metadatu kvalitāti, CLARIN nesen veica pieejamo datu kopu jaunu novērtējumu un veica jaunu atlasi. Atlases procesā galvenā uzmanība tika pievērsta pilna teksta saturam, piemēram, digitalizētām grāmatām, periodiskiem izdevumiem un laikrakstiem ar tekstuālu saturu, kas iegūts, izmantojot rakstzīmju optisko atpazīšanu (OCR). Citi objektu veidi, kas arī tika uzskatīti, ir augstas izšķirtspējas manuskriptu un runas audio skenēšana. Lai kvalificētos, resursiem bija jābūt tieši pieejamiem neapstrādātā veidā, un atkalizmantošanai nebija juridisku ierobežojumu. Pašlaik 22 kolekcijas, kurās ir aptuveni 135 000 kultūras mantojuma objektu, ir atzītas par šiem kritērijiem atbilstošām.
Savienoti instrumenti bezšuvju apstrādei
Pēc atlases pabeigšanas CLARIN izveidoja mehānismu regulārai metadatu izgūšanai atlasītajām kolekcijām. Kad metadati ir izgūti, tos ievada CLARIN valodu resursu katalogā — virtuālajā valodu observatorijā (VLO).
Vienkāršāk sakot, mēs redzam, ka jaunieviestie resursi sniedz būtisku ieguldījumu attiecīgo meklēšanas rezultātu skaitā attiecībā uz konkrētiem vaicājumiem. Piemēram, meklējot Slovēnijas teksta resursus, gandrīz visi vairāk nekā 73 000 rezultātu ir iegūti no Europeana datu sniedzēja, šajā gadījumā Slovēnijas Digitālās bibliotēkas. Tāpat ir ievērojami uzlabota ungāru un poļu valodas teksta resursu pieejamība.
VLO ne tikai piedāvā pētniekiem pazīstamu veidu, kā atklāt kultūras mantojuma objektus, kas saistīti ar viņu pētījumiem, bet arī nodrošina tiešu ceļu uz atklāto resursu analīzi. Piemēram, šo 18. gadsimta brošūru, ko Īrijas Manuskriptu komisija un Oireachtas bibliotēka piedāvā PDF formātā ar iegultu pilna teksta saturu, tagad var atrast VLO.
Dodoties uz resursu skatu un atlasot procesu ar valodas resursu komutatoru opciju, tiek parādīts atsaucamo rīku saraksts - deviņi rakstīšanas laikā. Starp iespējām ir gramatiskā analīze, izmantojot Weblicht Dependency Parsing ķēdi un Voyant komplektu datorizētai teksta analīzei. Ņemiet vērā, ka, lai gan LRS var izmantot jebkuram resursam, tai nav saistītu rīku visām valodām vai resursu veidiem un ka pašreizējā versijā tiek piemērots faila lieluma ierobežojums. Gaidāmajā versijā šis ierobežojums tiks atcelts.

Jauni integrēts saturs vēl vairāk izmantos potenciālu
Tagad, kad ir sasniegta ražošanas kvalitātes integrācija ar ievērojamu labas kvalitātes un labi aprakstītu resursu izvēli, mēs varam redzēt šādas integrācijas potenciāla kontūras plašākā mērogā. Pašreizējie centieni nodrošināt pilna teksta satura pieejamību lielām digitalizētu laikrakstu kolekcijām Europeana Newspapers projektā liecina, ka tuvākajā nākotnē šis potenciāls, visticamāk, tiks izmantots vēl lielākā mērogā. Turklāt CLARIN turpinās izvērtēt papildu kolekcijas, kas nav tikai “mazie augļi”, un centīsies turpināt paplašināt kultūras mantojuma resursu apjomu pētnieku rokai.
Meklēt, atrast un apstrādāt pilna teksta kultūras mantojuma resursus ar VLO tagad!
Ja jums ir interese par Virtuālajā valodu observatorijā pieejamajām kolekcijām un vēlaties uzzināt, kādi rīki ir pieejami to apstrādei, vienkārši dodieties uz vlo.clarin.eu, ievadiet dažus meklēšanas terminus un sāciet izpēti.
