CLARIN und Europeana machen die Entdeckung und Verarbeitung von 135.000 Kulturerbeobjekten schnell und einfach

Veröffentlicht 8. April 2019 von

Twan Goosen (CLARIN ERIC)

Bücher, Manuskripte, historische Zeitungen und viele andere Arten von textuellen Kulturerbeobjekten (CHOs) liefern wertvolle Beiträge für ein breites Spektrum von Forschungsthemen. Die Mission von CLARIN ist es, digitale Sprachressourcen Wissenschaftlern, Forschern, Studenten und Bürgerwissenschaftlern aller Disziplinen zur Verfügung zu stellen. Als Partner der Europeana Digital Service Infrastructure (DSI) haben Europeana und CLARIN zusammengearbeitet, um Kulturerbematerial in die Infrastruktur von CLARIN einzubetten. Auf der Grundlage der im Rahmen des Pilotprojekts gewonnenen Erfahrungen und aufbauend auf den verbesserten Verbreitungsdiensten und der von Europeana angebotenen Metadatenqualität hat CLARIN kürzlich eine neue Bewertung der verfügbaren Datensätze vorgenommen und eine neue Auswahl getroffen. Der Auswahlprozess konzentrierte sich auf Volltextinhalte wie digitalisierte Bücher, Zeitschriften und Zeitungen mit Textinhalten, die durch optische Zeichenerkennung (OCR) erhalten wurden. Andere Arten von Objekten, die auch berücksichtigt wurden, sind hochauflösende Scans von Manuskripten und Sprachaudio. Um sich zu qualifizieren, mussten Ressourcen direkt in ihrer Rohform verfügbar sein und keine rechtlichen Beschränkungen für die Wiederverwendung haben. Derzeit wurden 22 Sammlungen mit etwa 135.000 Objekten des Kulturerbes identifiziert, die diese Kriterien erfüllen.

Vernetzte Tools für eine nahtlose Verarbeitung

Nach Abschluss der Auswahl richtete CLARIN einen Mechanismus für den regelmäßigen Abruf von Metadaten für die ausgewählten Sammlungen ein. Nach dem Abruf werden die Metadaten in den CLARIN-Sprachressourcenkatalog, das Virtual Language Observatory (VLO), aufgenommen.

Wir sehen sofort, dass die neu eingeführten Ressourcen einen wesentlichen Beitrag zur Anzahl relevanter Suchergebnisse für bestimmte Abfragen leisten. Bei der Suche nach slowenischen Textressourcen stammen beispielsweise fast alle der 73.000+ Ergebnisse von einem Europeana-Datenanbieter - in diesem Fall der Digitalen Bibliothek Sloweniens. Ebenso wurde die Verfügbarkeit ungarischer und polnischer Textressourcen erheblich verbessert.

Das VLO bietet Forschern nicht nur eine vertraute Möglichkeit, für ihre Forschung relevante Kulturgüter zu entdecken, sondern bietet auch einen direkten Weg zur Analyse entdeckter Ressourcen. Beispielsweise kann diese Broschüre aus dem 18. Jahrhundert, die von der Irish Manuscripts Commission und der Oireachtas Library als PDF mit eingebettetem Volltextinhalt angeboten wird, nun über die VLO abgerufen werden.

Wenn Sie zur Ressourcenansicht gehen und den Prozess mit der Option Language Resource Switchboard auswählen, sehen Sie eine Liste der aufrufbaren Tools - neun zum Zeitpunkt des Schreibens. Zu den Optionen gehören die grammatische Analyse über die Weblicht Dependency Parsing-Kette und die Voyant-Suite für die computergestützte Textanalyse. Beachten Sie, dass das LRS zwar für jede Ressource aufgerufen werden kann, jedoch nicht über verknüpfte Tools für alle Sprach- oder Ressourcentypen verfügt und dass in der aktuellen Version eine Dateigrößenbeschränkung gilt. In einer kommenden Version wird diese Einschränkung aufgehoben.

Neu integrierte Inhalte werden das Potenzial weiter ausschöpfen

Jetzt, da die Integration einer beträchtlichen Auswahl an qualitativ hochwertigen und gut beschriebenen Ressourcen in Produktionsqualität erreicht wurde, können wir die Konturen des Potenzials einer solchen Integration in einem größeren Maßstab sehen. Die derzeitigen Bemühungen, im Rahmen des Projekts Europeana Newspapers Volltextinhalte für große Sammlungen digitalisierter Zeitungen verfügbar zu machen, machen es wahrscheinlich, dass dieses Potenzial in naher Zukunft in erheblichem Umfang weiter ausgeschöpft wird. Darüber hinaus wird CLARIN weitere Sammlungen über die „niedrig hängenden Früchte“ hinaus evaluieren und darauf abzielen, das Volumen der Ressourcen des Kulturerbes an den Fingerspitzen der Forscher weiter auszubauen.

Suchen, finden und verarbeiten Sie Volltext-Ressourcen des Kulturerbes mit dem VLO jetzt!

Wenn Sie neugierig auf die im Virtual Language Observatory verfügbaren Sammlungen sind und herausfinden möchten, welche Tools für deren Verarbeitung zur Verfügung stehen, gehen Sie einfach zu vlo.clarin.eu, geben Sie einige Suchbegriffe ein und beginnen Sie mit der Erkundung.

CLARIN und Europeana machen die Entdeckung und Verarbeitung von 135.000 Kulturerbeobjekten schnell und einfach

Teilen

Vernetzte Tools für eine nahtlose Verarbeitung

Neu integrierte Inhalte werden das Potenzial weiter ausschöpfen

Suchen, finden und verarbeiten Sie Volltext-Ressourcen des Kulturerbes mit dem VLO jetzt!

Entdecken Sie verwandte Inhalte