Udforskning af nye ressourcer i CLARIN's virtuelle sprogobservatorium

Offentliggjort 15. oktober 2020 ved

Twan Goosen (CLARIN ERIC)

Det virtuelle sprogobservatorium

CLARIN er en forskningsinfrastruktur, der har til formål at støtte forskere inden for humaniora og samfundsvidenskab ved at gøre digitale sprogressourcer og -værktøjer fra hele Europa og andre steder tilgængelige via et fælles onlinemiljø. Som partnere i Europeana Digital Service Infrastructure (DSI) arbejder Europeana og CLARIN sammen om at integrere kulturarvsindhold i CLARIN's infrastruktur. Siden den indledende pilotintegration i 2017 har CLARIN regelmæssigt ajourført og udvidet udvælgelsen af kulturarvsgenstande, som det inkluderer i sit virtuelle sprogobservatorium (VLO). Denne online søge- og opdagelsestjeneste fokuserer på behovene hos lærde, der søger sprogressourcer, og er integreret i den bredere CLARIN-infrastruktur.

Nye ressourcer til forskere

En vigtig del af denne integration er at forbedre brugernes adgang til onlineanalyse og behandlingsmuligheder for alle ressourcer, der findes via VLO. Sådanne funktioner er tilgængelige for en lang række kulturarvsressourcer, der "høstes" gennem Europeana, lige fra manuskripter fra renæssancetiden og digitaliserede aviser til historiske børnebøger og mundtlige historieoptagelser.

I april 2019 skrev vi om den første ressourceintegration. Vi viste et stærkt eksempel på, hvordan folk kan behandle en sprogressource direkte fra deres browser med et par klik efter at have opdaget den. På det tidspunkt var omkring 135 000 optegnelser blevet hentet fra Europeana og inkluderet i VLO. Siden da har vi foretaget to yderligere iterationer af udvælgelse og integration, hvilket har resulteret i over 275.000 registreringer fra Europeana, hvilket er mere end nogen anden individuel leverandør af metadataregistreringer i øjeblikket i VLO. Nedenfor præsenterer vi yderligere to eksempler på ressourcer, der i øjeblikket er tilgængelige, og demonstrerer, hvordan de kan behandles yderligere.

»O kimmeryjskich pomnikach w Krymie«

'O kimmeryjskich pomnikach w Krymie',er en polsk bog fra 1882, leveret af Federacja Bibliotek Cyfrowych som PDF, med dens fulde tekst indhold til rådighed som følge af OCR (optisk tegngenkendelse). Som animationen nedenfor viser, kan en person, der bruger VLO, udforske behandlingsmuligheder ved at vælge et link til en individuel fil og behandle den med sprogressourceomstillingen. Til denne rekord er der en række interessante naturlige sprogbehandlingsværktøjer til rådighed, hvoraf de fleste leveres af det polske CLARIN-PL-konsortium.

Computational lingvister måske ønsker at se resultatet af de forskellige typer af sproglige analyser til rådighed, mens humaniora forskere kan finde det interessant at udforske outputtet af søgeordet emhætte, som giver en rangeret liste over emner automatisk opdaget som værende relevante for teksten. Det værktøj, der tilbyder denne type analyse for polsk, er ReSpa. Det kan startes direkte fra tavlen, og ved at gøre det kan forskere hurtigt få en forståelse af indholdet af et værk uden selv at åbne det! Dette kan også være nyttigt for dem, der ikke læser polsk, da emnelisten nemt kan oversættes ved hjælp af et generisk tekstoversættelsesværktøj såsom Google Translate. For dette eksempel kan vi inden for få minutter finde ud af, at dens hovedemne er monumenter baseret på bogens indhold.

»Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland«

Vores andet eksempel er en digitaliseret børnebog fra det 19. århundrede fra det nederlandske nationalbibliotek: »Eentheepartijtje van Mevrouw Poes: eene vertelling uit Katsland'. Et direkte link til en PDF er tilgængelig for denne ressource. Udover scanningerne af de rige illustrationer og historien koder den også bogens fulde indhold som maskinlæsbar tekst.

Billede

Ved hjælp af sprogressourceomstillingen kan en bruger finde ud af, at fjernaflæsningsværktøjet Voyant er en tilgængelig behandlingsmulighed. Når ressourcen er indlæst i Voyant, præsenteres teksten ved siden af forskellige målinger og et sæt værktøjer, der gør det muligt for en lærd at udføre kvantitative analyser af termerne i teksten, som i eksemplet nedenfor.

Billede

Dette korpus har 1 dokument med 2.836 ord i alt og 1.010 unikke ordformer. Oprettet for 3 sekunder siden. Ordforrådstæthed: 0.356. Gennemsnitlige ord pr. sætning: 32.2. De hyppigste ord i korpus: mevrouw (49) Poes (38) mademoiselle (18) teepartijtje (17) monsieur (14).

Læs mere

Nogle andre interessante samlinger tilføjet siden vores sidste rapport, som du nu kan udforske via VLO, omfatter:

Digitaliserede aviser og tidsskrifter fra Sloveniens digitale bibliotek, Federacja Bibliotek Cyfrowych (Polen) og Varnas offentlige bibliotek (Bulgarien)
Rejsebøger fra Sloveniens digitale bibliotek
Manuskripter fra renæssancetiden fra det italienske nationale forskningsråds Opera del Vocabolario Italiano
Mundtlige historiske optegnelser fra Monaghan County Council og University College Cork (Irland)

Hvis du er nysgerrig efter disse og de mange andre samlinger, der findes i Virtual Language Observatory, og gerne vil udforske de værktøjer, der er til rådighed til at analysere og behandle dem, kan du besøge vlo.clarin.eu, indtaste nogle søgetermer og begynde at udforske!