Книги, ръкописи, исторически вестници и много други видове текстови обекти на културното наследство предоставят ценен принос за широк спектър от изследователски теми. Мисията на CLARIN е да направи дигитални езикови ресурси достъпни за учени, изследователи, студенти и граждани-учени от всички дисциплини. Като партньори в инфраструктурата за цифрови услуги на Europeana, Europeana и CLARIN работиха заедно за вграждането на материали от културното наследство в инфраструктурата на CLARIN. Въз основа на опита, придобит по време на пилотния проект, и въз основа на подобрените услуги за разпространение и качеството на метаданните, предлагани от Europeana, CLARIN наскоро извърши нова оценка на наличните набори от данни и направи нов подбор. Процесът на подбор беше съсредоточен върху пълно текстово съдържание, като например цифровизирани книги, периодични издания и вестници с текстово съдържание, получено чрез оптично разпознаване на символи (OCR). Други видове обекти, които също бяха разгледани, са сканиране с висока резолюция на ръкописи и речево аудио. За да отговарят на изискванията, ресурсите трябва да бъдат пряко достъпни в суров вид и да нямат правни ограничения за повторна употреба. Понастоящем 22 колекции, съдържащи около 135 000 обекта на културното наследство, са определени като отговарящи на тези критерии.
Свързани инструменти за безпроблемна обработка
След приключване на подбора CLARIN създаде механизъм за редовно извличане на метаданни за избраните колекции. След като бъдат извлечени, метаданните се въвеждат в каталога на езиковите ресурси на CLARIN — виртуалната езикова обсерватория (VLO).
Веднага можем да видим, че нововъведените ресурси осигуряват значителен принос към броя на съответните резултати от търсенето за определени заявки. Например при търсене на словенски текстови ресурси почти всички над 73 000 резултата произхождат от доставчик на данни Europeana — в този случай Цифровата библиотека на Словения. По подобен начин значително беше увеличена наличността на унгарски и полски текстови ресурси.
Освен че предлага на изследователите познат начин за откриване на обекти на културното наследство, свързани с техните изследвания, VLO предоставя и пряк път за анализ на откритите ресурси. Например тази брошура от 18-ти век, предлагана като PDF файл с вградено пълно текстово съдържание от Ирландската комисия по ръкописите и библиотеката Oireachtas, вече може да бъде намерена чрез VLO.
Като отидете в изгледа "Ресурси" и изберете "Процес" с опцията "Превключване на езикови ресурси", ще видите списък с инструменти за фактуриране - девет в момента на писане. Сред вариантите са граматичен анализ чрез веригата Weblicht Dependency Parsing и пакета Voyant за компютърно подпомаган текстов анализ. Имайте предвид, че въпреки че LRS може да се използва за всеки ресурс, тя не разполага със свързани инструменти за всички видове езици или ресурси и че в текущата версия се прилага ограничение за размера на файла. В предстояща версия това ограничение ще бъде премахнато.

Новоинтегрираното съдържание ще продължи да реализира потенциала си
Сега, когато е постигната интеграция на качеството на производството на значителен избор от качествени и добре описани ресурси, можем да видим контурите на потенциала на такава интеграция в по-голям мащаб. Настоящите усилия за предоставяне на пълнотекстово съдържание за големи колекции от цифровизирани вестници в рамките на проекта Europeana Newspapers дават възможност този потенциал да бъде допълнително реализиран в значителен мащаб в близко бъдеще. Освен това CLARIN ще пристъпи към оценка на допълнителни колекции извън „ниско висящите плодове“ и ще се стреми да продължи да разширява обема на ресурсите на културното наследство на върха на пръстите на изследователите.
Търсете, намерете и обработете пълнотекстови ресурси на културното наследство с VLO сега!
Ако сте любопитни за колекциите, налични във виртуалната езикова обсерватория, и искате да разберете какви инструменти са на разположение за тяхната обработка, просто отидете на vlo.clarin.eu, въведете някои думи за търсене и започнете да проучвате.
