Libros, manuscritos, periódicos históricos y muchos otros tipos de objetos textuales del patrimonio cultural (CHO) proporcionan información valiosa para una amplia gama de temas de investigación. La misión de CLARIN es poner los recursos del lenguaje digital a disposición de académicos, investigadores, estudiantes y ciudadanos-científicos de todas las disciplinas. Como socios de la infraestructura de servicios digitales (DSI) de Europeana, Europeana y CLARIN han colaborado para integrar material del patrimonio cultural en la infraestructura de CLARIN. Basándose en la experiencia adquirida durante el proyecto piloto y en la mejora de los servicios de difusión y la calidad de los metadatos ofrecidos por Europeana, CLARIN ha llevado a cabo recientemente una nueva evaluación de los conjuntos de datos disponibles y ha realizado una nueva selección. El proceso de selección se centró en el contenido de texto completo, como libros digitalizados, publicaciones periódicas y periódicos con contenido textual obtenido a través del reconocimiento óptico de caracteres (OCR). Otros tipos de objetos que también se consideraron son escaneos de alta resolución de manuscritos y audio de voz. Para calificar, los recursos tenían que estar directamente disponibles en su forma cruda y no tener restricciones legales para la reutilización. En la actualidad, se ha determinado que 22 colecciones que contienen unos 135.000 bienes del patrimonio cultural cumplen estos criterios.
Herramientas conectadas para un procesamiento sin fisuras
Una vez finalizada la selección, CLARIN estableció un mecanismo para la recuperación regular de metadatos para las colecciones seleccionadas. Una vez recuperados, los metadatos se ingieren en el catálogo de recursos lingüísticos de CLARIN, el Observatorio Virtual de las Lenguas (VLO).
De inmediato, podemos ver que los recursos recientemente introducidos proporcionan una contribución sustancial al número de resultados de búsqueda relevantes para ciertas consultas. Por ejemplo, en la búsqueda de recursos de texto eslovenos, casi todos los más de 73.000 resultados proceden de un proveedor de datos de Europeana, en este caso la Biblioteca Digital de Eslovenia. Del mismo modo, se ha mejorado considerablemente la disponibilidad de recursos de textos húngaros y polacos.
Además de ofrecer a los investigadores una forma familiar de descubrir objetos del patrimonio cultural relevantes para su investigación, el VLO también proporciona un camino directo para el análisis de los recursos descubiertos. Por ejemplo, este folleto del siglo XVIII, que la Comisión de Manuscritos Irlandeses y la Biblioteca del Oireachtas ofrecen en formato PDF con contenido de texto completo incorporado, puede consultarse ahora a través de la OAV.
Al ir a la vista Recursos y seleccionar el Proceso con la opción Interruptor de recursos de idioma, verá una lista de herramientas invokable - nueve en el momento de escribir. Entre las opciones se encuentran el análisis gramatical a través de la cadena de análisis de dependencia de Weblicht y la suite Voyant para el análisis de texto asistido por computadora. Tenga en cuenta que, aunque el LRS se puede invocar para cualquier recurso, no tiene herramientas vinculadas para todos los tipos de idioma o recursos, y que se aplica una limitación de tamaño de archivo en la versión actual. Una próxima versión verá levantada esta limitación.

El contenido recién integrado aprovechará aún más el potencial
Ahora que se ha logrado la integración de calidad de producción de una selección considerable de recursos de buena calidad y bien descritos, podemos ver los contornos del potencial de dicha integración a mayor escala. Los esfuerzos actuales para que el contenido de texto completo esté disponible para grandes colecciones de periódicos digitalizados en el proyecto Europeana Newspapers hacen probable que este potencial se cumpla aún más a una escala sustancial en un futuro próximo. Además, CLARIN procederá a evaluar colecciones adicionales más allá de la «fruta baja» y tratará de seguir ampliando el volumen de recursos del patrimonio cultural al alcance de los investigadores.
¡Busque, encuentre y procese recursos de patrimonio cultural de texto completo con el VLO ahora!
Si tiene curiosidad sobre las colecciones disponibles en el Observatorio Virtual de Lenguas y desea saber qué herramientas están disponibles para procesarlas, simplemente vaya a vlo.clarin.eu, ingrese algunos términos de búsqueda y comience a explorar.
