Új források feltárása a Clarin virtuális nyelvi megfigyelőközpontjában

Közzétéve 2020. október 15. Szerző:

Twan Goosen (CLARIN ERIC)

A Virtuális Nyelvi Obszervatórium

A Clarin egy olyan kutatási infrastruktúra, amelynek célja a bölcsészet- és társadalomtudományi kutatók támogatása azáltal, hogy a digitális nyelvi erőforrásokat és eszközöket egész Európából és Európán kívülről egyetlen online bejelentkezési környezeten keresztül hozzáférhetővé teszi. Az Europeana digitális szolgáltatási infrastruktúrájának (DSI) partnereként az Europeana és a Clarin együttműködik annak érdekében, hogy a kulturális örökséggel kapcsolatos tartalmakat beépítsék a Clarin infrastruktúrájába. A 2017-es kezdeti kísérleti integráció óta a CLARIN rendszeresen frissítette és kiterjesztette a kulturális örökségi tárgyak kiválasztását a virtuális nyelvi megfigyelőközpontjában (VLO). Ez az online keresési és felfedezési szolgáltatás a nyelvi erőforrásokat kereső tudósok igényeire összpontosít, és integrálódik a szélesebb körű Clarin infrastruktúrába.

Új források a kutatók számára

Ennek az integrációnak kulcsfontosságú része a felhasználók online elemzési és feldolgozási lehetőségekhez való hozzáférésének javítása a VLO-n keresztül talált bármely erőforrás esetében. Ezek a funkciók az Europeanán keresztül „betakarított” kulturális örökségi erőforrások széles köre számára állnak rendelkezésre, a reneszánsz kori kéziratoktól és a digitalizált újságoktól kezdve a történelmi gyermekkönyvekig és a szóbeli történeti felvételekig.

2019 áprilisában írtunk az első erőforrás-integrációról. Megmutattunk egy erőteljes példát arra, hogy az emberek hogyan tudnak feldolgozni egy nyelvi erőforrást közvetlenül a böngészőjükből néhány kattintással, miután felfedezték. Ekkor mintegy 135 000 rekordot szereztek be az Europeanából, és vettek fel a VLO-ba. Azóta két további kiválasztási és integrációs iterációt hajtottunk végre, ami több mint 275 000 Europeana-rekordot eredményezett, ami több, mint bármely más metaadat-rekord szolgáltatója jelenleg a VLO-ban. Az alábbiakban két további példát mutatunk be a jelenleg rendelkezésre álló erőforrásokra, és bemutatjuk, hogyan lehet azokat tovább feldolgozni.

„O kimmeryjskich pomnikach w Krymie”

Az Okimmeryjskich pomnikach w Krymieegy 1882-ből származó lengyel könyv, amelyet a Federacja Bibliotek Cyfrowych bocsátott rendelkezésre PDF formátumban, teljes szöveges tartalmával az OCR (optikai karakterfelismerés) eredményeként. Amint azt az alábbi animáció mutatja, a VLO-t használó személy felfedezheti a feldolgozási lehetőségeket, ha kiválaszt egy hivatkozást egy egyéni fájlra, és feldolgozza azt a Language Resource Switchboard segítségével. Ehhez a rekordhoz számos érdekes természetes nyelvfeldolgozó eszköz áll rendelkezésre, amelyek többségét a lengyel CLARIN-PL konzorcium biztosítja.

A számítógépes nyelvészek kíváncsiak lehetnek a rendelkezésre álló különböző típusú nyelvi elemzések eredményeire, míg a bölcsészettudományi tudósok érdekesnek találhatják a kulcsszó-eltávolító kimenetét, amely rangsorolja az automatikusan felismert témákat, amelyek relevánsak a szöveg szempontjából. A lengyel nyelv esetében az ilyen típusú elemzést kínáló eszköz a ReSpa. Közvetlenül a kapcsolótábláról indítható, és ezzel a kutatók gyorsan megérthetik a munka tartalmát anélkül, hogy megnyitnák! Ez azok számára is hasznos lehet, akik nem olvasnak lengyelül, mivel a témalista könnyen lefordítható egy általános szövegfordító eszköz, például a Google Translate segítségével. Ebben a példában néhány percen belül kiderül, hogy a könyv tartalma alapján a fő témája a műemlékek.

„Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland”

Második példánk a Holland Nemzeti Könyvtár 19. századi digitalizált gyermekkönyve: „Eentheepartijtje van Mevrouw Poes: Eene vertelling uit Katsland(angol nyelven). Ehhez az erőforráshoz egy PDF-fájlra mutató közvetlen hivatkozás érhető el. A gazdag illusztrációk és a történet szkennelése mellett géppel olvasható szövegként kódolja a könyv teljes tartalmát.

Kép

A Language Resource Switchboard használatával a felhasználó megtudhatja, hogy a Voyant távoli olvasóeszköz elérhető feldolgozási lehetőség. Miután az erőforrást betöltötték a Voyantba, a szöveg különböző mérőszámok és olyan eszközök mellett jelenik meg, amelyek lehetővé teszik a tudós számára, hogy mennyiségi elemzéseket végezzen a szövegben lévő kifejezésekről, mint az alábbi példában.

Kép

Ez a korpusz 1 dokumentumot tartalmaz 2836 teljes szóval és 1010 egyedi szóformával. Létrehozva 3 másodperccel ezelőtt. Szókincssűrűség: 0.356. Átlagos szavak mondatonként: 32.2. Leggyakoribb szavak a korpuszban: mevrouw (49); poes (38); mademoiselle (18); theepartijtje (17); monsieur (14) (angol nyelven).

Tudjon meg többet

Néhány más érdekes gyűjtemény, amelyet a legutóbbi jelentésünk óta adtunk hozzá, és amelyet most felfedezhet a VLO-n keresztül:

A Szlovén Digitális Könyvtár, a Federacja Bibliotek Cyfrowych (Lengyelország) és a Várnai Közkönyvtár (Bulgária) digitalizált újságjai és folyóiratai
Utazási könyvek a Szlovén Digitális Könyvtárból
Az Olasz Nemzeti Kutatási Tanács Opera del Vocabolario Italiano reneszánsz kori kéziratai
Oral history records from the Monaghan County Council and University College Cork (Írország)

Ha kíváncsi ezekre és a Virtuális Nyelvek Megfigyelőközpontjában elérhető sok más gyűjteményre, és szeretné felfedezni az elemzésükhöz és feldolgozásukhoz rendelkezésre álló eszközöket, látogasson el a vlo.clarin.eu oldalra, adjon meg néhány keresési kifejezést, és kezdje el felfedezni!