CLARIN og Europeana gør opdagelse og forarbejdning hurtig og nem for 135.000 kulturarvsgenstande

Offentliggjort 8. april 2019 ved

Twan Goosen (CLARIN ERIC)

Bøger, manuskripter, historiske aviser og mange andre former for tekstmæssige kulturarvsgenstande (CHO'er) giver værdifuldt input til en bred vifte af forskningsemner. CLARINs mission er at gøre digitale sprogressourcer tilgængelige for forskere, studerende og borgerforskere fra alle discipliner. Som partnere i Europeana Digital Service Infrastructure (DSI) har Europeana og CLARIN arbejdet sammen om at integrere kulturarvsmateriale i CLARIN's infrastruktur. På grundlag af erfaringerne fra pilotprojektet og på grundlag af Europeanas forbedrede formidlingstjenester og metadatakvalitet gennemførte CLARIN for nylig en ny evaluering af de tilgængelige datasæt og foretog en ny udvælgelse. Udvælgelsesprocessen fokuserede på fuldtekstindhold såsom digitaliserede bøger, tidsskrifter og aviser med tekstindhold opnået gennem optisk tegngenkendelse (OCR). Andre typer objekter, der også blev overvejet, er scanninger i høj opløsning af manuskripter og talelyd. For at komme i betragtning skulle ressourcerne være direkte tilgængelige i deres rå form og have ingen retlige begrænsninger for genbrug. I øjeblikket er 22 samlinger, der indeholder omkring 135 000 kulturarvsgenstande, blevet identificeret som opfyldende disse kriterier.

Tilsluttede værktøjer til problemfri behandling

Efter at have afsluttet udvælgelsen oprettede CLARIN en mekanisme til regelmæssig indhentning af metadata for de udvalgte samlinger. Når metadataene er hentet, optages de i CLARIN's sprogressourcekatalog, Virtual Language Observatory (VLO).

Umiddelbart kan vi se, at de nyligt indførte ressourcer yder et væsentligt bidrag til antallet af relevante søgeresultater for visse forespørgsler. Hvis man f.eks. søger efter slovenske tekstressourcer, stammer næsten alle de 73 000+ resultater fra en Europeana-dataudbyder – i dette tilfælde Sloveniens digitale bibliotek. På samme måde er tilgængeligheden af ungarske og polske tekstressourcer blevet væsentligt forbedret.

Ud over at tilbyde forskere en velkendt måde at opdage kulturarvsgenstande, der er relevante for deres forskning, giver VLO også en direkte vej til analyse af opdagede ressourcer. For eksempel kan denne pjece fra det 18. århundrede, der tilbydes som en PDF med indlejret fuldtekstindhold af den irske manuskriptkommission og Oireachtas Library, nu findes via VLO.

Ved at gå til visningen Ressourcer og vælge Processen med indstillingen Sprogressourceomstilling får du vist en liste over værktøjer, der kan påberåbes - ni i skrivende stund. Blandt mulighederne er grammatisk analyse gennem Weblicht Dependency Parsing-kæden og Voyant-pakken til computerassisteret tekstanalyse. Bemærk, at selv om LRS kan påberåbes for enhver ressource, har den ikke sammenkædede værktøjer til alle sprog- eller ressourcetyper, og at der gælder en begrænsning af filstørrelsen i den aktuelle version. En kommende version vil se denne begrænsning ophævet.

Nyligt integreret indhold vil yderligere opfylde potentialet

Nu hvor der er opnået produktionskvalitetsintegration af et betydeligt udvalg af god kvalitet og velbeskrevne ressourcer, kan vi se konturerne af potentialet i en sådan integration i større skala. De nuværende bestræbelser på at gøre fuldtekstindhold tilgængeligt for store samlinger af digitaliserede aviser i Europeana Newspapers-projektet gør det sandsynligt, at dette potentiale vil blive yderligere udnyttet i betydeligt omfang i den nærmeste fremtid. Desuden vil CLARIN fortsætte med at evaluere yderligere samlinger ud over de "lavthængende frugter" og sigte mod fortsat at udvide mængden af kulturarvsressourcer ved forskernes fingerspidser.

Søg, find og behandl kulturarvsressourcer i fuldtekst med VLO nu!

Hvis du er nysgerrig efter de samlinger, der er tilgængelige i Virtual Language Observatory, og gerne vil vide, hvilke værktøjer der er til rådighed til behandling af dem, skal du blot gå til vlo.clarin.eu, indtaste nogle søgetermer og begynde at udforske.

CLARIN og Europeana gør opdagelse og forarbejdning hurtig og nem for 135.000 kulturarvsgenstande

Del

Tilsluttede værktøjer til problemfri behandling

Nyligt integreret indhold vil yderligere opfylde potentialet

Søg, find og behandl kulturarvsressourcer i fuldtekst med VLO nu!

Opdag relateret indhold