CLARIN en Europeana maken ontdekking en verwerking snel en eenvoudig voor 135.000 cultureel erfgoedobjecten

Gepubliceerd 8 april 2019 door

Twan Goosen (CLARIN ERIC)

Boeken, manuscripten, historische kranten en vele andere soorten tekstuele cultureel erfgoedobjecten (CHO's) leveren waardevolle input voor een breed scala aan onderzoeksthema's. De missie van CLARIN is om digitale taalhulpbronnen beschikbaar te maken voor wetenschappers, onderzoekers, studenten en burgerwetenschappers uit alle disciplines. Als partners in de digitale diensteninfrastructuur van Europeana (DSI) hebben Europeana en CLARIN samengewerkt om cultureel erfgoedmateriaal in de infrastructuur van CLARIN te verankeren. Op basis van de tijdens het proefproject opgedane ervaring en voortbouwend op de verbeterde verspreidingsdiensten en metadatakwaliteit die Europeana biedt, heeft CLARIN onlangs een nieuwe evaluatie van de beschikbare datasets uitgevoerd en een nieuwe selectie gemaakt. Het selectieproces was gericht op volledige tekstinhoud zoals gedigitaliseerde boeken, tijdschriften en kranten met tekstuele inhoud verkregen door optische tekenherkenning (OCR). Andere soorten objecten die ook werden beschouwd zijn hoge resolutie scans van manuscripten en spraakaudio. Om in aanmerking te komen, moesten middelen direct beschikbaar zijn in hun ruwe vorm en geen wettelijke beperkingen hebben voor hergebruik. Momenteel zijn 22 collecties met ongeveer 135.000 cultureel erfgoedobjecten geïdentificeerd die aan deze criteria voldoen.

Verbonden tools voor naadloze verwerking

Na afronding van de selectie heeft CLARIN een mechanisme opgezet voor het regelmatig opvragen van metadata voor de geselecteerde collecties. Zodra de metagegevens zijn opgehaald, worden ze opgenomen in de catalogus van taalhulpbronnen van CLARIN, het Waarnemingscentrum voor virtuele talen (VLO).

Onmiddellijk kunnen we zien dat de nieuw geïntroduceerde bronnen een substantiële bijdrage leveren aan het aantal relevante zoekresultaten voor bepaalde zoekopdrachten. Door bijvoorbeeld naar Sloveense tekstbronnen te zoeken, zijn bijna alle 73.000+ resultaten afkomstig van een dataprovider van Europeana - in dit geval de digitale bibliotheek van Slovenië. Ook de beschikbaarheid van Hongaarse en Poolse tekstbronnen is sterk verbeterd.

De VLO biedt onderzoekers niet alleen een vertrouwde manier om cultureel erfgoedobjecten te ontdekken die relevant zijn voor hun onderzoek, maar biedt ook een directe weg naar analyse van ontdekte bronnen. Zo is dit 18e-eeuwse pamflet, dat door de Irish Manuscripts Commission en de Oireachtas Library als PDF met ingesloten volledige tekst wordt aangeboden, nu te vinden via de VLO.

Door naar de weergave Resources te gaan en de optie Process with the Language Resource Switchboard te selecteren, ziet u een lijst met invokable tools - negen op het moment van schrijven. Tot de opties behoren grammaticale analyse via de Weblicht Dependency Parsing-keten en de Voyant-suite voor computerondersteunde tekstanalyse. Houd er rekening mee dat, hoewel de LRS voor elke bron kan worden aangeroepen, deze geen gekoppelde tools heeft voor alle taal- of brontypen en dat in de huidige versie een beperking van de bestandsgrootte van toepassing is. In een volgende versie wordt deze beperking opgeheven.

Nieuwe geïntegreerde inhoud zal het potentieel verder vervullen

Nu de integratie van productiekwaliteit van een aanzienlijke selectie van goede kwaliteit en goed beschreven middelen is bereikt, kunnen we de contouren van het potentieel van een dergelijke integratie op grotere schaal zien. De huidige inspanningen om volledige tekstinhoud beschikbaar te stellen voor grote collecties gedigitaliseerde kranten in het kader van het Europeana Newspapers-project maken het waarschijnlijk dat dit potentieel in de nabije toekomst op aanzienlijke schaal verder zal worden benut. Bovendien zal CLARIN doorgaan met het evalueren van aanvullende collecties die verder gaan dan het “laaghangende fruit” en ernaar streven het volume van cultureel erfgoedbronnen binnen handbereik van onderzoekers te blijven uitbreiden.

Zoeken, vinden en verwerken van full-text cultureel erfgoed bronnen met de VLO nu!

Als u nieuwsgierig bent naar de collecties die beschikbaar zijn in het waarnemingscentrum voor virtuele talen en wilt weten welke hulpmiddelen beschikbaar zijn om ze te verwerken, gaat u gewoon naar vlo.clarin.eu, voert u enkele zoektermen in en begint u met verkennen.

CLARIN en Europeana maken ontdekking en verwerking snel en eenvoudig voor 135.000 cultureel erfgoedobjecten

Delen

Verbonden tools voor naadloze verwerking

Nieuwe geïntegreerde inhoud zal het potentieel verder vervullen

Zoeken, vinden en verwerken van full-text cultureel erfgoed bronnen met de VLO nu!

Ontdek gerelateerde content