Проучване на нови ресурси във виртуалната езикова обсерватория на CLARIN

Публикувано на 15 октомври 2020 г. от

Twan Goosen (CLARIN ERIC)

Виртуалната езикова обсерватория

CLARIN е научноизследователска инфраструктура, която има за цел да подкрепи изследователите в областта на хуманитарните и социалните науки, като направи цифровите езикови ресурси и инструменти от цяла Европа и извън нея достъпни чрез единна онлайн среда. Като партньори в инфраструктурата за цифрови услуги на Europeana (DSI) Europeana и CLARIN работят заедно за интегриране на съдържанието на културното наследство в инфраструктурата на CLARIN. След първоначалната пилотна интеграция през 2017 г. CLARIN редовно актуализира и разширява подбора на обекти на културното наследство, които включва в своята виртуална езикова обсерватория (VLO). Тази онлайн услуга за търсене и откриване се фокусира върху нуждите на учените, които търсят езикови ресурси, и е интегрирана в по-широката инфраструктура на CLARIN.

Нови ресурси за изследователите

Ключова част от тази интеграция е подобряването на достъпа на потребителите до онлайн анализ и възможности за обработка на всеки ресурс, открит чрез VLO. Такива функции са достъпни за голямо разнообразие от ресурси на културното наследство, „събрани“ чрез Europeana, вариращи от ръкописи от епохата на възраждането и цифровизирани вестници до исторически детски книги и устни исторически записи.

През април 2019 г. писахме за първата интеграция на ресурсите. Показахме мощен пример за това как хората могат да обработват езиков ресурс директно от браузъра си с няколко кликвания, след като го открият. Към този момент около 135 000 записа са получени от Europeana и са включени във VLO. Оттогава извършихме две допълнителни повторения на подбора и интеграцията, което доведе до над 275 000 записа от Europeana, което е повече от всеки друг отделен доставчик на записи на метаданни, който понастоящем е във VLO. По-долу представяме два допълнителни примера за ресурси, които понастоящем са на разположение, и показваме как те могат да бъдат обработени допълнително.

„O kimmeryjskich pomnikach w Krymie“

"Okimmeryjskich pomnikach w Krymie"е полска книга от 1882 г., предоставена от Federacja Bibliotek Cyfrowych като PDF, с пълно текстово съдържание в резултат на OCR (оптично разпознаване на символи). Както показва анимацията по-долу, някой, който използва VLO, може да проучи опциите за обработка, като избере връзка към отделен файл и го обработи с разпределителното табло за езикови ресурси. За тази цел са налични разнообразни интересни инструменти за обработка на естествен език, повечето от които са предоставени от полския консорциум CLARIN-PL.

Изчислителните лингвисти може да искат да видят резултата от различните видове налични езикови анализи, докато хуманитарните учени може да сметнат за интересно да проучат изхода на екстрактора на ключови думи, който предоставя подреден списък с теми, които автоматично се откриват като свързани с текста. Инструментът, който предлага този вид анализ за полски език, е ReSpa. Тя може да бъде стартирана директно от разпределителното табло и по този начин изследователите могат бързо да придобият разбиране за съдържанието на дадена работа, без дори да я отварят! Това може да бъде от полза и за тези, които не четат полски език, тъй като списъкът с теми може лесно да бъде преведен с помощта на общ инструмент за превод на текст, като например Google Translate. За този пример можем да разберем в рамките на няколко минути, че въз основа на съдържанието на книгата основната й тема са паметниците.

„Een theepartijtje van Mevrouw Poes: Eene vertelling uit Katsland“

Вторият ни пример е цифровизирана детска книга от 19-ти век, предоставена от Националната библиотека на Нидерландия: „Eentheepartijtje van Mevrouw Poes: Eene vertelling uit Katsland". За този ресурс има директна връзка към PDF файл. Освен сканирането на богатите илюстрации и историята, тя кодира и пълното съдържание на книгата като машинно четим текст.

Изображение

С помощта на превключвателя за езикови ресурси потребителят може да разбере, че инструментът за дистанционно четене Voyant е налична опция за обработка. След като ресурсът е зареден във Voyant, текстът е представен до различни показатели и набор от инструменти, които позволяват на учен да извършва количествени анализи на термините в текста, както е в примера по-долу.

Изображение

Този корпус има 1 документ с общо 2836 думи и 1010 уникални словни форми. Създадена преди 3 секунди. Гъстота на речника: 0.356. Средни думи на изречение: 32.2. Най-често срещаните думи в корпуса: мевру (49); поа (38); мадмоазел (18); aepartijtje (17); г-н (14).

Научете повече

Някои други интересни колекции, добавени след последния ни доклад, които сега можете да разгледате чрез VLO, включват:

Цифровизирани вестници и периодични издания от Цифровата библиотека на Словения, Federacja Bibliotek Cyfrowych (Полша) и Варненската обществена библиотека (България)
Туристически книги от Дигиталната библиотека на Словения
Ръкописи от епохата на Ренесанса от операта на Италианския национален съвет за научни изследвания „Opera del Vocabolario Italiano“
Устни исторически записи от Съвета на графство Монахан и Университетския колеж в Корк (Ирландия)

Ако сте любопитни за тези и много други колекции, налични във Виртуалната езикова обсерватория, и бихте искали да проучите наличните инструменти за тяхното анализиране и обработване, посетете vlo.clarin.eu, въведете някои думи за търсене и започнете да проучвате!