Utforska nya resurser vid Clarins virtuella språkobservatorium

Publicerad 15 oktober 2020 av

Twan Goosen (CLARIN ERIC)

Det virtuella språkobservatoriet

Clarin är en forskningsinfrastruktur som syftar till att stödja forskare inom humaniora och samhällsvetenskap genom att göra digitala språkresurser och språkverktyg från hela Europa och resten av världen tillgängliga genom en enda onlinemiljö för inloggning. Som partner i Europeanas infrastruktur för digitala tjänster samarbetar Europeana och Clarin för att integrera kulturarvsinnehåll i Clarins infrastruktur. Sedan en första pilotintegration 2017 har Clarin regelbundet uppdaterat och utökat urvalet av kulturarvsobjekt som ingår i sitt virtuella språkobservatorium (VLO). Denna online-sök- och upptäcktstjänst fokuserar på behoven hos forskare som letar efter språkresurser och är integrerad i den bredare Clarin-infrastrukturen.

Nya resurser för forskare

En viktig del av denna integration är att förbättra användarnas tillgång till online-analys och bearbetningsmöjligheter för alla resurser som finns via VLO. Sådana funktioner finns tillgängliga för en mängd olika kulturarvsresurser som ”skördas” genom Europeana, från renässanstidsmanuskript och digitaliserade tidningar till historiska barnböcker och muntliga historieinspelningar.

I april 2019 skrev vi om den första resursintegreringen. Vi visade ett kraftfullt exempel på hur människor kan bearbeta en språkresurs direkt från sin webbläsare med några klick efter att ha upptäckt den. Vid den tidpunkten hade omkring 135 000 poster hämtats från Europeana och inkluderats i VLO. Sedan dess har vi genomfört ytterligare två iterationer av urval och integration, vilket resulterar i över 275 000 poster från Europeana, vilket är mer än någon annan enskild leverantör av metadataposter som för närvarande finns i VLO. Nedan presenterar vi ytterligare två exempel på resurser som för närvarande finns tillgängliga och visar hur de kan bearbetas vidare.

”O kimmeryjskich pomnikach w Krymie”

"O kimmeryjskich pomnikach w Krymie",är en polsk bok från 1882, som tillhandahålls av Federacja Bibliotek Cyfrowych som PDF, med dess fullständiga textinnehåll tillgängligt som ett resultat av OCR (optisk teckenigenkänning). Som animeringen nedan visar kan någon som använder VLO utforska bearbetningsalternativ genom att välja en länk till en enskild fil och bearbeta den med språkresursväxeln. För denna post finns en mängd intressanta naturliga språkbehandlingsverktyg tillgängliga, de flesta av dem tillhandahållna av det polska Clarin-PL-konsortiet.

Beräkningslingvister kanske vill se resultatet av de olika typerna av språkliga analyser som finns tillgängliga, medan humaniora forskare kan tycka att det är intressant att utforska resultatet av sökordsutdragaren, som ger en rankad lista över ämnen som automatiskt upptäcks som relevanta för texten. Det verktyg som erbjuder denna typ av analys för polska är ReSpa. Det kan startas direkt från Switchboard, och genom att göra det kan forskare snabbt få en förståelse för innehållet i ett verk utan att ens öppna det! Detta kan också vara till hjälp för dem som inte läser polska, eftersom ämneslistan lätt kan översättas med hjälp av ett allmänt textöversättningsverktyg som Google Translate. För det här exemplet kan vi inom några minuter ta reda på att, baserat på bokens innehåll, är dess huvudämne monument.

”Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland”

Vårt andra exempel är en digitaliserad barnbok från 1800-talet från Nederländernas nationalbibliotek: Eentheepartijtje van Mevrouw Poes: eene vertelling uit Katsland'. En direktlänk till en PDF-fil finns tillgänglig för denna resurs. Förutom skanningarna av de rika illustrationerna och berättelsen kodar den också hela bokens innehåll som maskinläsbar text.

Bild

Genom att använda språkresursväxeln kan en användare ta reda på att fjärrläsningsverktyget Voyant är ett tillgängligt bearbetningsalternativ. När resursen har laddats in i Voyant presenteras texten bredvid olika mätvärden och en uppsättning verktyg som gör det möjligt för en forskare att utföra kvantitativa analyser av termerna i texten, som i exemplet nedan.

Bild

Denna korpus har 1 dokument med 2 836 totala ord och 1 010 unika ordformer. Skapad för 3 sekunder sedan. Ordförrådstäthet: 0.356. Genomsnittliga ord per mening: 32.2. Vanligaste orden i korpusen: mevrouw (49), Poes (38). mademoiselle (18), theepartijtje (17), monsieur (14).

Läs mer

Några andra intressanta samlingar som lagts till sedan vår senaste rapport som du nu kan utforska via VLO inkluderar:

Digitaliserade tidningar och tidskrifter från Sloveniens digitala bibliotek, Federacja Bibliotek Cyfrowych (Polen) och Varna Public Library (Bulgarien)
Reseböcker från Sloveniens digitala bibliotek
Manuskript från renässansen från det italienska nationella forskningsrådets Opera del Vocabolario Italiano
Muntliga historiska dokument från Monaghan County Council och University College Cork (Irland)

Om du är nyfiken på dessa och de många andra samlingarna som finns tillgängliga i Virtual Language Observatory, och vill utforska de verktyg som finns tillgängliga för att analysera och bearbeta dem, besök vlo.clarin.eu, ange några söktermer och börja utforska!