Explorando nuevos recursos en el Observatorio Virtual de Lenguas de CLARIN

Publicado 15 de octubre de 2020 por

Twan Goosen (CLARIN ERIC)

El Observatorio Virtual del Lenguaje

CLARIN es una infraestructura de investigación que tiene como objetivo apoyar a los investigadores en humanidades y ciencias sociales haciendo que los recursos y herramientas de lenguaje digital de toda Europa y más allá sean accesibles a través de un entorno en línea de inicio de sesión único. Como socios de la infraestructura de servicios digitales (DSI) de Europeana, Europeana y CLARIN están colaborando para integrar los contenidos del patrimonio cultural en la infraestructura de CLARIN. Desde una integración piloto inicial en 2017, CLARIN ha actualizado y ampliado periódicamente la selección de objetos del patrimonio cultural que incluye en su Observatorio de Lenguas Virtuales (VLO). Este servicio de búsqueda y descubrimiento en línea se centra en las necesidades de los académicos que buscan recursos lingüísticos y está integrado en la infraestructura más amplia de CLARIN.

Nuevos recursos para investigadores

Una parte clave de esta integración es mejorar el acceso de los usuarios a las posibilidades de análisis y procesamiento en línea para cualquier recurso encontrado a través del VLO. Estas funcionalidades están disponibles para una amplia variedad de recursos del patrimonio cultural «cosechados» a través de Europeana, que van desde manuscritos de la época del renacimiento y periódicos digitalizados hasta libros infantiles históricos y grabaciones de historia oral.

En abril de 2019, escribimos sobre la primera integración de recursos. Mostramos un poderoso ejemplo de cómo las personas pueden procesar un recurso de idioma directamente desde su navegador con unos pocos clics después de descubrirlo. En ese momento, alrededor de 135.000 registros habían sido obtenidos de Europeana e incluidos en el VLO. Desde entonces, hemos llevado a cabo dos iteraciones adicionales de selección e integración, resultando en más de 275,000 registros de Europeana, que es más que cualquier otro proveedor individual de registros de metadatos actualmente en el VLO. A continuación, presentamos dos ejemplos adicionales de recursos que están actualmente disponibles y demostramos cómo se pueden procesar más adelante.

«O kimmeryjskich pomnikach w Krymie»

'O kimmeryjskich pomnikach w Krymie', es un libro polaco de 1882, proporcionado por Federacja Bibliotek Cyfrowych como PDF, con su contenido de texto completo disponible como resultado de OCR (reconocimiento óptico de caracteres). Como muestra la siguiente animación, alguien que use el VLO puede explorar las opciones de procesamiento seleccionando un enlace a un archivo individual y procesándolo con el Switchboard de recursos de idioma. Para este registro, una variedad de interesantes herramientas de procesamiento de lenguaje natural están disponibles, la mayoría de ellas proporcionadas por el consorcio polaco CLARIN-PL.

Los lingüistas computacionales pueden querer ver el resultado de los diversos tipos de análisis lingüísticos disponibles, mientras que los estudiosos de humanidades pueden encontrar interesante explorar la salida del extractor de palabras clave, que proporciona una lista clasificada de temas detectados automáticamente como relevantes para el texto. La herramienta que ofrece este tipo de análisis para polaco es ReSpa. Se puede iniciar directamente desde el Switchboard, y al hacerlo, los investigadores pueden obtener rápidamente una comprensión del contenido de un trabajo sin siquiera abrirlo. Esto también puede ser útil para aquellos que no leen polaco, ya que la lista de temas puede traducirse fácilmente utilizando una herramienta genérica de traducción de texto como Google Translate. Para este ejemplo, podemos descubrir en pocos minutos que, según el contenido del libro, su tema principal son los monumentos.

«Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland»

Nuestro segundo ejemplo es un libro infantil digitalizado del siglo XIX facilitado por la Biblioteca Nacional de los Países Bajos: «Eentheepartijtje van Mevrouw Poes: eene vertelling uit Katsland' (en inglés). Un enlace directo a un PDF está disponible para este recurso. Además de los escaneos de las ricas ilustraciones y la historia, también codifica el contenido completo del libro como texto legible por máquina.

Imagen

Mediante el uso de la centralita de recursos lingüísticos, un usuario puede descubrir que la herramienta de lectura a distancia Voyant es una opción de procesamiento disponible. Una vez que el recurso se carga en Voyant, el texto se presenta junto a varias métricas y un conjunto de herramientas que permiten a un académico realizar análisis cuantitativos de los términos dentro del texto, como en el ejemplo a continuación.

Imagen

Este corpus tiene 1 documento con 2.836 palabras en total y 1.010 formas de palabras únicas. Creado hace 3 segundos. Densidad de vocabulario: 0.356. Promedio de palabras por frase: 32.2. Palabras más frecuentes en el corpus: mevrouw (49); poes (38); mademoiselle (18); teepartijtje (17); Monsieur (14 años).

Descubre más

Algunas otras colecciones interesantes agregadas desde nuestro último informe que ahora puede explorar a través del VLO incluyen:

Periódicos y publicaciones periódicas digitalizados de la Biblioteca Digital de Eslovenia, Federacja Bibliotek Cyfrowych (Polonia) y la Biblioteca Pública de Varna (Bulgaria)
Libros de viaje de la Biblioteca Digital de Eslovenia
Manuscritos renacentistas de la Ópera del Vocabolario Italiano del Consejo Nacional de Investigación Italiano
Registros de historia oral del Consejo del Condado de Monaghan y University College Cork (Irlanda)

Si tiene curiosidad sobre estas y muchas otras colecciones disponibles en el Observatorio Virtual de Lenguas, y desea explorar las herramientas disponibles para analizarlas y procesarlas, visite vlo.clarin.eu, ingrese algunos términos de búsqueda y comience a explorar.