Könyvek, kéziratok, történelmi újságok és sok más típusú szöveges kulturális örökségi tárgyak (CHO) értékes hozzájárulást nyújtanak a kutatási témák széles köréhez. A Clarin küldetése, hogy a digitális nyelvi erőforrásokat elérhetővé tegye minden tudományág tudósai, kutatói, hallgatói és civil tudósai számára. Az Europeana digitális szolgáltatási infrastruktúrájának (DSI) partnereként az Europeana és a Clarin együttműködött annak érdekében, hogy a kulturális örökséggel kapcsolatos anyagokat beépítsék a Clarin infrastruktúrájába. A kísérleti projekt során szerzett tapasztalatok alapján, valamint az Europeana által kínált jobb terjesztési szolgáltatásokra és metaadatok minőségére építve a Clarin nemrégiben elvégezte a rendelkezésre álló adatkészletek új értékelését, és új kiválasztást végzett. A kiválasztási folyamat a teljes szöveges tartalomra, például az optikai karakterfelismerés (OCR) révén nyert szöveges tartalmú digitalizált könyvekre, folyóiratokra és újságokra összpontosított. Más típusú tárgyak, amelyeket szintén figyelembe vettek, a kéziratok és a beszédhangok nagy felbontású szkennelése. A jogosultság megszerzéséhez az erőforrásoknak nyers formában közvetlenül rendelkezésre kellett állniuk, és nem volt jogi korlátozásuk az újrafelhasználásra. Jelenleg 22, mintegy 135 000 kulturális örökségi tárgyat tartalmazó gyűjtemény felel meg ezeknek a kritériumoknak.
Csatlakoztatott szerszámok a zökkenőmentes feldolgozáshoz
A kiválasztás véglegesítése után a Clarin létrehozott egy mechanizmust a kiválasztott gyűjtemények metaadatainak rendszeres lekérdezésére. A lekérdezést követően a metaadatok bekerülnek a CLARIN nyelvi erőforrás-katalógusába, a Virtuális Nyelvek Megfigyelőközpontjába (VLO).
Egyből láthatjuk, hogy az újonnan bevezetett erőforrások jelentősen hozzájárulnak bizonyos lekérdezések releváns keresési eredményeinek számához. Például a szlovén szövegforrások keresésekor a több mint 73 000 találat szinte mindegyike az Europeana adatszolgáltatójától – ebben az esetben a Szlovén Digitális Könyvtártól – származik. Hasonlóképpen jelentősen javult a magyar és a lengyel szövegforrások elérhetősége is.
Amellett, hogy a kutatók számára ismerős módot kínál a kutatásuk szempontjából releváns kulturális örökségi tárgyak felfedezésére, a VLO közvetlen utat biztosít a felfedezett erőforrások elemzéséhez is. Például ez a 18. századi brosúra , amelyet az Ír Kéziratok Bizottsága és az Oireachtas Könyvtár teljes szövegű beágyazott tartalommal PDF-ként kínál, most már megtalálható a VLO-n keresztül.
Ha az Erőforrások nézetre lép, és kiválasztja a Folyamat a nyelvi erőforrás kapcsolótáblával opciót, megjelenik a megtámadhatatlan eszközök listája - kilenc az írás időpontjában. A lehetőségek közé tartozik a nyelvtani elemzés a Weblicht függőségi elemzési láncon keresztül és a Voyant programcsomag a számítógéppel támogatott szövegelemzéshez. Megjegyzendő, hogy bár az LRS bármely erőforráshoz meghívható, nem rendelkezik csatolt eszközökkel az összes nyelvhez vagy erőforrástípushoz, és hogy az aktuális verzióban fájlméret-korlátozás van érvényben. A következő verzióban ezt a korlátozást feloldják.

Az újonnan integrált tartalom még jobban ki fogja aknázni a benne rejlő lehetőségeket
Most, hogy a jó minőségű és jól leírt erőforrások jelentős választékának termelés-minőség integrációja megvalósult, nagyobb léptékben láthatjuk az ilyen integrációban rejlő lehetőségek körvonalait. Az Europeana Newspapers projekt keretében annak érdekében tett jelenlegi erőfeszítések, hogy a digitalizált újságok nagy gyűjteményei számára teljes szövegű tartalmak álljanak rendelkezésre, valószínűsítik, hogy ezt a potenciált a közeljövőben jelentős mértékben ki fogják aknázni. A Clarin továbbá értékelni fogja az „alacsonyan lógó gyümölcsön” túlmutató további gyűjteményeket, és arra törekszik, hogy a kutatók karnyújtásnyira bővítsék a kulturális örökség erőforrásainak mennyiségét.
Keresse meg, találja meg és dolgozza fel a teljes szövegű kulturális örökségi forrásokat a VLO-val most!
Ha kíváncsi a Virtuális Nyelvek Megfigyelőközpontjában rendelkezésre álló gyűjteményekre, és szeretné megtudni, hogy milyen eszközök állnak rendelkezésre azok feldolgozásához, egyszerűen látogasson el a vlo.clarin.eu webhelyre, adjon meg néhány keresési kifejezést, és kezdje el felfedezni.
