Erkundung neuer Ressourcen in der Beobachtungsstelle für virtuelle Sprachen von CLARIN

Veröffentlicht 15. Oktober 2020 von

Twan Goosen (CLARIN ERIC)

Das Observatorium für virtuelle Sprache

CLARIN ist eine Forschungsinfrastruktur, die darauf abzielt, geistes- und sozialwissenschaftliche Forscher zu unterstützen, indem digitale Sprachressourcen und -instrumente aus ganz Europa und darüber hinaus über eine zentrale Online-Umgebung zugänglich gemacht werden. Als Partner in der digitalen Dienstinfrastruktur von Europeana (DSI) arbeiten Europeana und CLARIN zusammen, um Inhalte des Kulturerbes in die Infrastruktur von CLARIN einzubetten. Seit einer ersten Pilotintegration im Jahr 2017 hat CLARIN die Auswahl an Kulturerbeobjekten, die es in sein Virtual Language Observatory (VLO) einbezieht, regelmäßig aktualisiert und erweitert. Dieser Online-Such- und Entdeckungsdienst konzentriert sich auf die Bedürfnisse von Wissenschaftlern, die nach Sprachressourcen suchen, und ist in die breitere CLARIN-Infrastruktur integriert.

Neue Ressourcen für Forscher

Ein wichtiger Teil dieser Integration ist die Verbesserung des Zugriffs der Benutzer auf Online-Analyse- und Verarbeitungsmöglichkeiten für alle Ressourcen, die über die VLO gefunden werden. Solche Funktionen stehen für eine Vielzahl von Ressourcen des Kulturerbes zur Verfügung, die über Europeana „geerntet“ werden, von Manuskripten aus der Renaissancezeit und digitalisierten Zeitungen bis hin zu historischen Kinderbüchern und mündlichen Geschichtsaufzeichnungen.

Im April 2019 haben wir über die erste Ressourcenintegration geschrieben. Wir haben ein starkes Beispiel dafür gezeigt, wie Menschen eine Sprachressource direkt aus ihrem Browser mit wenigen Klicks verarbeiten können, nachdem sie sie entdeckt haben. Zu diesem Zeitpunkt waren etwa 135.000 Datensätze von Europeana bezogen und in die VLO aufgenommen worden. Seitdem haben wir zwei zusätzliche Iterationen der Auswahl und Integration durchgeführt, was zu über 275.000 Datensätzen von Europeana geführt hat, was mehr ist als jeder andere einzelne Anbieter von Metadatensätzen, der sich derzeit im VLO befindet. Im Folgenden stellen wir zwei weitere Beispiele für Ressourcen vor, die derzeit verfügbar sind, und zeigen, wie sie weiterverarbeitet werden können.

„O kimmeryjskich pomnikach w Krymie“

'O kimmeryjskich pomnikach w Krymie', ist ein polnisches Buch von 1882, zur Verfügung gestellt von der Federacja Bibliotek Cyfrowych als PDF, mit seinem Volltext-Inhalt als Ergebnis der OCR (optische Zeichenerkennung). Wie die folgende Animation zeigt, kann jemand, der die VLO verwendet, die Verarbeitungsoptionen erkunden, indem er einen Link zu einer einzelnen Datei auswählt und sie mit der Sprachressourcen-Schaltfläche verarbeitet. Für diese Aufzeichnung stehen eine Vielzahl interessanter Werkzeuge zur Verarbeitung natürlicher Sprache zur Verfügung, von denen die meisten vom polnischen CLARIN-PL-Konsortium bereitgestellt werden.

Computerlinguisten möchten vielleicht das ergebnis der verschiedenen verfügbaren arten von sprachanalysen sehen, während geisteswissenschaftler es interessant finden könnten, die ausgabe des keyword-extraktors zu untersuchen, der eine rangierte liste von themen bietet, die automatisch als relevant für den text erkannt werden. Das Werkzeug, das diese Art der Analyse für Polnisch anbietet, ist ReSpa. Es kann direkt von der Schalttafel gestartet werden, und dadurch können Forscher schnell ein Verständnis für den Inhalt eines Werkes gewinnen, ohne es sogar zu öffnen! Dies kann auch für diejenigen hilfreich sein, die kein Polnisch lesen, da die Themenliste leicht mit einem generischen Textübersetzungstool wie Google Translate übersetzt werden kann. Für dieses Beispiel können wir innerhalb weniger Minuten herausfinden, dass das Hauptthema, basierend auf dem Inhalt des Buches, Denkmäler sind.

„Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland“

Unser zweites Beispiel ist ein digitalisiertes Kinderbuch aus dem 19. Jahrhundert, das von der Nationalbibliothek der Niederlande zur Verfügung gestellt wird: 'Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland'. Für diese Ressource steht ein direkter Link zu einer PDF-Datei zur Verfügung. Neben den Scans der reichhaltigen Illustrationen und der Geschichte kodiert es auch den gesamten Inhalt des Buches als maschinenlesbaren Text.

Bild

Durch die Verwendung des Language Resource Switchboards kann ein Benutzer herausfinden, dass das Voyant Fernlesetool eine verfügbare Verarbeitungsoption ist. Sobald die Ressource in Voyant geladen ist, wird der Text neben verschiedenen Metriken und einer Reihe von Werkzeugen präsentiert, die es einem Wissenschaftler ermöglichen, quantitative Analysen der Begriffe innerhalb des Textes durchzuführen, wie im folgenden Beispiel.

Bild

Dieses Korpus hat 1 Dokument mit 2.836 Wörtern und 1.010 einzigartigen Wortformen. Erstellt vor 3 Sekunden. Vokabulardichte: 0.356. Durchschnittliche Wörter pro Satz: 32.2. Die häufigsten Wörter im Korpus: mevrouw (49); poes (38); Mademoiselle (18); theepartijtje (17); Monsieur (14).

Erfahren Sie mehr

Einige andere interessante Sammlungen, die seit unserem letzten Bericht hinzugefügt wurden und die Sie jetzt über das VLO erkunden können, sind:

Digitalisierte Zeitungen und Zeitschriften der Digitalen Bibliothek Sloweniens, der Federacja Bibliotek Cyfrowych (Polen) und der Öffentlichen Bibliothek Varna (Bulgarien)
Reisebücher aus der Digitalen Bibliothek Sloweniens
Handschriften aus der Renaissancezeit von der Opera del Vocabolario Italiano des italienischen Nationalen Forschungsrats
Mündliche Geschichtsaufzeichnungen vom Monaghan County Council und University College Cork (Irland)

Wenn Sie neugierig auf diese und die vielen anderen Sammlungen sind, die in der Beobachtungsstelle für virtuelle Sprache verfügbar sind, und die verfügbaren Werkzeuge für deren Analyse und Verarbeitung erkunden möchten, besuchen Sie vlo.clarin.eu, geben Sie einige Suchbegriffe ein und beginnen Sie mit der Erkundung!