Explorer de nouvelles ressources dans l’Observatoire virtuel des langues de CLARIN

Publié 15 octobre 2020 par

Twan Goosen (CLARIN ERIC)

L'Observatoire virtuel des langues

CLARIN est une infrastructure de recherche qui vise à soutenir les chercheurs en sciences humaines et sociales en rendant les ressources et outils linguistiques numériques de toute l'Europe et au-delà accessibles via un environnement en ligne unique. En tant que partenaires de l’infrastructure de services numériques (ISN) d’Europeana, Europeana et CLARIN collaborent pour intégrer le contenu du patrimoine culturel dans l’infrastructure de CLARIN. Depuis une première intégration pilote en 2017, CLARIN a régulièrement mis à jour et étendu la sélection d'objets du patrimoine culturel qu'il inclut dans son Observatoire virtuel des langues (VLO). Ce service de recherche et de découverte en ligne se concentre sur les besoins des chercheurs à la recherche de ressources linguistiques et est intégré à l'infrastructure CLARIN plus large.

Nouvelles ressources pour les chercheurs

Un élément clé de cette intégration est l'amélioration de l'accès des utilisateurs aux possibilités d'analyse et de traitement en ligne pour toute ressource trouvée via le VLO. Ces fonctionnalités sont disponibles pour une grande variété de ressources du patrimoine culturel «récoltées» par Europeana, allant des manuscrits de l’époque de la renaissance et des journaux numérisés aux livres historiques pour enfants et aux enregistrements d’histoire orale.

En avril 2019, nous avons écrit sur la première intégration des ressources. Nous avons montré un exemple puissant de la façon dont les gens peuvent traiter une ressource linguistique directement à partir de leur navigateur en quelques clics après l'avoir découverte. À ce moment-là, environ 135 000 enregistrements avaient été obtenus auprès d'Europeana et inclus dans le VLO. Depuis lors, nous avons effectué deux itérations supplémentaires de sélection et d'intégration, résultant en plus de 275 000 enregistrements d'Europeana, qui est plus que tout autre fournisseur individuel d'enregistrements de métadonnées actuellement dans le VLO. Ci-dessous, nous présentons deux autres exemples de ressources actuellement disponibles et montrons comment elles peuvent être traitées plus avant.

«O kimmeryjskich pomnikach w Krymie»

'O kimmeryjskich pomnikach w Krymie', est un livre polonais de 1882, fourni par la Federacja Bibliotek Cyfrowych en PDF, avec son contenu en texte intégral disponible à la suite de l'OCR (reconnaissance optique des caractères). Comme le montre l'animation ci-dessous, une personne utilisant le VLO peut explorer les options de traitement en sélectionnant un lien vers un fichier individuel et en le traitant avec le tableau des ressources linguistiques. Pour cet enregistrement, une variété d'outils intéressants de traitement du langage naturel sont disponibles, la plupart d'entre eux fournis par le consortium polonais CLARIN-PL.

Les linguistes computationnels pourraient vouloir voir le résultat des différents types d'analyses linguistiques disponibles, tandis que les chercheurs en sciences humaines pourraient trouver intéressant d'explorer les résultats de l'extracteur de mots clés, qui fournit une liste classée de sujets automatiquement détectés comme pertinents pour le texte. L’outil qui offre ce type d’analyse pour le polonais est ReSpa. Il peut être démarré directement à partir du standard et, ce faisant, les chercheurs peuvent rapidement comprendre le contenu d'une œuvre sans même l'ouvrir! Cela peut également être utile pour ceux qui ne lisent pas le polonais, car la liste des sujets peut facilement être traduite à l’aide d’un outil de traduction de texte générique tel que Google Translate. Pour cet exemple, nous pouvons découvrir en quelques minutes que, d'après le contenu du livre, son sujet principal est les monuments.

«Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland»

Notre deuxième exemple est un livre pour enfants numérisé du XIXe siècle fourni par la Bibliothèque nationale des Pays-Bas: 'Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland'. Un lien direct vers un PDF est disponible pour cette ressource. Outre les scans des illustrations riches et de l'histoire, il encode également le contenu complet du livre sous forme de texte lisible par machine.

Image

En utilisant le tableau des ressources linguistiques, un utilisateur peut découvrir que l'outil de lecture distante Voyant est une option de traitement disponible. Une fois la ressource chargée dans Voyant, le texte est présenté à côté de diverses métriques et d'un ensemble d'outils qui permettent à un chercheur d'effectuer des analyses quantitatives des termes dans le texte, comme dans l'exemple ci-dessous.

Image

Ce corpus a 1 document avec 2 836 mots au total et 1 010 formes de mots uniques. Créé il y a 3 secondes. Densité du vocabulaire: 0.356. Mots moyens par phrase: 32.2. Mots les plus fréquents dans le corpus: mevrouw (49); poes (38); mademoiselle (18 ans); theepartijtje (17); Monsieur (14).

En savoir plus

Quelques autres collections intéressantes ajoutées depuis notre dernier rapport que vous pouvez maintenant explorer via le VLO comprennent:

Journaux et périodiques numérisés de la bibliothèque numérique de Slovénie, de la Federacja Bibliotek Cyfrowych (Pologne) et de la bibliothèque publique de Varna (Bulgarie)
Livres de voyage de la Bibliothèque numérique de Slovénie
Manuscrits de l’époque de la Renaissance de l’Opéra du Vocabolario du Conseil national italien de la recherche Italiano
Dossiers d'histoire orale du conseil du comté de Monaghan et de l'université de Cork (Irlande)

Si vous êtes curieux de connaître ces collections et les nombreuses autres disponibles dans l’Observatoire virtuel des langues et que vous souhaitez explorer les outils disponibles pour les analyser et les traiter, rendez-vous sur vlo.clarin.eu, saisissez des termes de recherche et commencez à explorer!