Les livres, les manuscrits, les journaux historiques et de nombreux autres types d'objets textuels du patrimoine culturel apportent une contribution précieuse à un large éventail de sujets de recherche. La mission de CLARIN est de mettre des ressources linguistiques numériques à la disposition des universitaires, des chercheurs, des étudiants et des citoyens-scientifiques de toutes les disciplines. En tant que partenaires de l’infrastructure de services numériques (ISN) d’Europeana, Europeana et CLARIN ont travaillé ensemble pour intégrer du matériel lié au patrimoine culturel dans l’infrastructure de CLARIN. Sur la base de l’expérience acquise au cours du projet pilote et en s’appuyant sur l’amélioration des services de diffusion et de la qualité des métadonnées offerts par Europeana, CLARIN a récemment procédé à une nouvelle évaluation des ensembles de données disponibles et procédé à une nouvelle sélection. Le processus de sélection s'est concentré sur le contenu en texte intégral tel que les livres numérisés, les périodiques et les journaux dont le contenu textuel est obtenu par reconnaissance optique de caractères (OCR). D'autres types d'objets qui ont également été considérés sont les scans haute résolution de manuscrits et l'audio de la parole. Pour être admissibles, les ressources devaient être directement disponibles sous leur forme brute et ne pas être soumises à des restrictions légales en matière de réutilisation. Actuellement, 22 collections contenant environ 135 000 objets du patrimoine culturel ont été identifiées comme répondant à ces critères.
Outils connectés pour un traitement transparent
Après avoir finalisé la sélection, CLARIN a mis en place un mécanisme de récupération régulière des métadonnées pour les collections sélectionnées. Une fois récupérées, les métadonnées sont ingérées dans le catalogue de ressources linguistiques de CLARIN, l’Observatoire virtuel des langues (VLO).
Tout de suite, nous pouvons voir que les ressources nouvellement introduites apportent une contribution substantielle au nombre de résultats de recherche pertinents pour certaines requêtes. Par exemple, en recherchant des ressources textuelles slovènes, la quasi-totalité des plus de 73 000 résultats proviennent d’un fournisseur de données Europeana, en l’occurrence la bibliothèque numérique de Slovénie. De même, la disponibilité des ressources textuelles hongroises et polonaises a été considérablement améliorée.
En plus d'offrir aux chercheurs un moyen familier de découvrir des objets du patrimoine culturel pertinents pour leurs recherches, le VLO offre également un chemin direct vers l'analyse des ressources découvertes. Par exemple, cette brochure du XVIIIe siècle , proposée en format PDF avec un contenu en texte intégral intégré par la Commission irlandaise des manuscrits et la bibliothèque Oireachtas, peut désormais être consultée via le VLO.
En allant dans la vue Ressources et en sélectionnant le processus avec l'option Tableau des ressources linguistiques, vous voyez une liste d'outils invoquables - neuf au moment de la rédaction. Parmi les options figurent l'analyse grammaticale via la chaîne Weblicht Dependency Parsing et la suite Voyant pour l'analyse de texte assistée par ordinateur. Notez que, bien que le LRS puisse être invoqué pour n'importe quelle ressource, il n'a pas d'outils liés pour tous les types de langue ou de ressource, et qu'une limitation de taille de fichier s'applique dans la version actuelle. Une version à venir verra cette limitation levée.

Le contenu nouvellement intégré permettra de réaliser davantage le potentiel
Maintenant que l'intégration de la qualité de la production d'une sélection importante de ressources de bonne qualité et bien décrites a été réalisée, nous pouvons voir les contours du potentiel d'une telle intégration à plus grande échelle. Les efforts actuellement déployés pour rendre le contenu en texte intégral disponible pour de grandes collections de journaux numérisés dans le cadre du projet Europeana Newspapers font qu'il est probable que ce potentiel sera encore exploité à grande échelle dans un avenir proche. En outre, CLARIN procédera à l’évaluation de collections supplémentaires au-delà des «fruits à portée de main» et s’efforcera de continuer à accroître le volume des ressources du patrimoine culturel à portée de main des chercheurs.
Recherchez, trouvez et traitez des ressources du patrimoine culturel en texte intégral avec le VLO dès maintenant!
Si vous êtes curieux de connaître les collections disponibles dans l’Observatoire virtuel des langues et souhaitez savoir quels outils sont disponibles pour les traiter, rendez-vous simplement sur vlo.clarin.eu, saisissez des termes de recherche et commencez à explorer.
