Böcker, manuskript, historiska tidningar och många andra typer av texthistoriska kulturarvsobjekt (CHO) ger värdefull input för ett brett spektrum av forskningsämnen. Clarins uppdrag är att göra digitala språkresurser tillgängliga för forskare, studenter och medborgarforskare från alla discipliner. Som partner i Europeanas infrastruktur för digitala tjänster har Europeana och Clarin samarbetat för att integrera kulturarvsmaterial i Clarins infrastruktur. På grundval av erfarenheterna från pilotprojektet och med utgångspunkt i de förbättrade spridningstjänster och den metadatakvalitet som Europeana erbjuder genomförde Clarin nyligen en ny utvärdering av tillgängliga dataset och gjorde ett nytt urval. Urvalsprocessen inriktades på fulltextinnehåll såsom digitaliserade böcker, tidskrifter och tidningar med textinnehåll som erhållits genom optisk teckenigenkänning (OCR). Andra typer av objekt som också övervägdes är högupplösta skanningar av manuskript och talljud. För att kunna kvalificera sig måste resurserna vara direkt tillgängliga i obearbetad form och inte ha några rättsliga begränsningar för återanvändning. För närvarande har 22 samlingar som innehåller cirka 135 000 kulturarvsobjekt identifierats som uppfyller dessa kriterier.
Anslutna verktyg för sömlös bearbetning
Efter att ha slutfört urvalet inrättade Clarin en mekanism för regelbunden hämtning av metadata för de valda samlingarna. När metadata har hämtats förs de in i Clarins katalog över språkresurser, Virtual Language Observatory (VLO).
Omedelbart kan vi se att de nyinförda resurserna ger ett betydande bidrag till antalet relevanta sökresultat för vissa frågor. Om du till exempel söker efter slovenska textresurser kommer nästan alla över 73 000 resultat från en dataleverantör i Europeana – i detta fall Sloveniens digitala bibliotek. På samma sätt har tillgången till ungerska och polska textresurser förbättrats avsevärt.
Förutom att erbjuda forskare ett välbekant sätt att upptäcka kulturarvsobjekt som är relevanta för deras forskning, ger VLO också en direkt väg till analys av upptäckta resurser. Till exempel kan denna 1700-talsbroschyr , som erbjuds som PDF med inbäddat fulltextinnehåll av Irish Manuscripts Commission och Oireachtas Library, nu hittas via VLO.
Genom att gå till vyn Resurser och välja Process med alternativet Språkresursväxel ser du en lista över anropbara verktyg - nio i skrivande stund. Bland alternativen finns grammatisk analys genom Weblicht Dependency Parsing-kedjan och Voyant-sviten för datorstödd textanalys. Observera att även om LRS kan åberopas för alla resurser, har den inte länkade verktyg för alla språk- eller resurstyper, och att en filstorleksbegränsning gäller i den aktuella versionen. En kommande version kommer att se denna begränsning hävs.

Nytt integrerat innehåll kommer att ytterligare uppfylla potentialen
Nu när produktionskvalitetsintegration av ett stort urval av god kvalitet och välbeskrivna resurser har uppnåtts, kan vi se konturerna av potentialen för en sådan integration i större skala. De nuvarande insatserna för att göra fulltextinnehåll tillgängligt för stora samlingar av digitaliserade tidningar i Europeana Newspapers-projektet gör det sannolikt att denna potential kommer att utnyttjas ytterligare i betydande omfattning inom en snar framtid. Clarin kommer dessutom att fortsätta att utvärdera ytterligare samlingar utöver den ”låghängande frukten” och sträva efter att fortsätta att utöka kulturarvsresurserna till forskarnas fingertoppar.
Sök, hitta och bearbeta kulturarvsresurser i fulltext med VLO nu!
Om du är nyfiken på de samlingar som finns tillgängliga i Virtual Language Observatory och vill ta reda på vilka verktyg som finns tillgängliga för att bearbeta dem, gå helt enkelt till vlo.clarin.eu, ange några söktermer och börja utforska.
