¡Hola Matteo! ¿Puedes contarnos sobre el proyecto Impresiono?
Matteo: Impresso (literalmente, «lo que se ha impreso») es un proyecto de investigación colaborativo e interdisciplinario financiado por la Fundación Nacional Suiza para la Ciencia en el marco del régimen de financiación de Sinergia. El objetivo del proyecto es crear un marco tecnológico para extraer, procesar, vincular y explorar datos de archivos de medios impresos a gran escala.
El proyecto involucra a lingüistas computacionales, humanistas digitales, diseñadores, historiadores, bibliotecarios y archivistas, que están abordando el desafío de cómo enriquecer, representar, visualizar y analizar un gran corpus de periódicos históricos digitalizados con fines de investigación. Los socios de este proyecto son DHLAB de EPFL, el Centro de Historia Contemporánea y Digital de Luxemburgo (C2DH) y el Instituto de Lingüística Computacional de la Universidad de Zurich. La naturaleza interdisciplinaria de impresso se refleja también en el principio de co-diseño que aplicamos a lo largo del proyecto. Lo que significa en la práctica es que los datos que creamos y las herramientas para trabajar con periódicos digitalizados que estamos desarrollando están conformados por un diálogo constante entre historiadores, diseñadores, lingüistas computacionales y humanistas digitales.
En cuanto a la concepción y la motivación de impresso, anteriormente la DHLAB había participado en un proyecto de investigación en el que participaba el periódico suizo Le Temps, destinado a facilitar el acceso a dos periódicos digitalizados, Journal de Geneve y Gazette de Lausanne (que se fusionaron en 1998 para convertirse en Le Temps). Los resultados de este proyecto, así como los desafíos que habían surgido, sentaron las bases para Impresiono. La idea de crear un archivo de periódicos digitalizados se prestó bien para ampliarse e incluir más fuentes, así como para mirar más allá de las fronteras nacionales. Una serie de encuentros en conferencias y talleres entre Maud Ehrmann (DHLAB), Lars Wieneke (C2DH), Marten Düring (C2DH) y Simon Clematide (UZH) ayudaron a reforzar y articular esta idea en lo que se convirtió en una propuesta de financiación exitosa.
¿Cómo se involucró con el proyecto?
Mi colega y coordinador del proyecto Maud Ehrmann me pidió que me uniera al proyecto en el verano de 2017, cuando un cambio inesperado en el equipo del proyecto abrió la posibilidad de tener otro investigador postdoctoral para apoyarla en las tareas que la DHLAB estaba liderando. En ese momento, estaba trabajando en Linked Books, otro proyecto financiado por SNF sobre la minería de citas de literatura académica sobre la historia de Venecia. El trabajo sobre el procesamiento de entidades nombradas y la desambiguación que estamos llevando a cabo en impresso está en el centro de mis intereses de investigación. También hay una continuidad con Linked Books y mi investigación previa sobre la extracción de información de archivos digitales a gran escala en las Humanidades, con citas (y entidades más generalmente nombradas) siendo una de mis principales áreas de interés.
¿Cuál es la importancia de los conjuntos de datos de periódicos para la investigación histórica?
Los periódicos históricos son fuentes primarias invaluables para los estudiosos de humanidades en general, no solo para los historiadores. De hecho, contienen y conservan una especie de rastro fosilizado de nuestras sociedades actuales y pasadas. Registran todo tipo de eventos, desde declaraciones de guerra hasta bailes de baile los sábados por la noche en el campo, y documentan muchos aspectos de la vida cotidiana y la cultura. Contienen información extremadamente rica y densa, que también es continua, ya que en muchos casos estos periódicos han estado funcionando durante mucho tiempo y se publican de manera muy regular.
Un desafío crucial que estamos abordando in impresso es cómo diseñar una herramienta que ayude a los investigadores a trabajar con grandes archivos de periódicos digitalizados. La herramienta integra tecnologías de procesamiento del lenguaje natural (por ejemplo, procesamiento de entidades con nombre o modelado de temas) para capturar la semántica de los contenidos de los periódicos, con el fin de hacer que estas fuentes (mejoradas) sean utilizables para la investigación. Un principio importante que estamos siguiendo en su diseño es la transparencia, lo que significa que nos esforzamos por hacer explícitos y visibles para los usuarios todos los aspectos de los datos, o del procesamiento que realizamos en los datos, que a menudo corren el riesgo de permanecer ocultos en las interfaces de búsqueda. Los aspectos de información que queremos hacer más transparentes incluyen, por ejemplo, la calidad de OCR, así como los agujeros en los datos debido a archivos digitales dañados.
¿Cómo se utilizan las herramientas impresso?
A pesar de que el proyecto impresso todavía está en proceso, su corpus y herramientas se están utilizando activamente tanto para la investigación como para la enseñanza.
Por el lado de la investigación, la doctora Estelle Bunout (C2DH), una de las historiadoras (digitales) de nuestro proyecto, está trabajando en un estudio de caso titulado «Resistencia a Europa», que implica el análisis de debates sobre la idea europea en periódicos digitalizados de Luxemburgo, Suiza y otros países, con el objetivo de identificar tensiones en torno a la idea europea desde finales del siglo XIX hasta 1945. Y los investigadores de nuestros socios asociados, la asociación Infoclio y el Departamento de Historia de la Universidad de Lausana, están contribuyendo a la reflexión sobre cómo aplicar las herramientas impresso a las cuestiones de investigación histórica en el contexto de casos de uso concretos.
Finalmente, emitimos una Convocatoria para investigadores asociados durante el primer año del proyecto con el fin de ampliar el círculo de historiadores afiliados al proyecto. Como resultado, unos 20 historiadores, principalmente del Benelux, Francia, Alemania y Suiza, expresaron su interés tanto en las herramientas como en las colecciones reunidas por impresso y se han involucrado en el proyecto. Su asociación implica no solo el uso de los resultados del proyecto, sino también un diálogo regular con el equipo de impresso, a través de talleres y una conferencia final destinada a recopilar información sobre el uso de las herramientas de impresso y su investigación, y a debatir cuestiones epistemológicas planteadas por los periódicos digitalizados.
La diversidad de temas y métodos de los investigadores asociados refleja el atractivo de los periódicos suizos y luxemburgueses (digitalizados) como fuentes históricas. Incluyen investigaciones prosopográficas sobre expertos y corresponsales de guerra femeninas, así como sobre «historia de pensamientos», como el auge del internacionalismo liberal a finales del siglo XIX, o la historia bancaria. Cada uno de estos temas de investigación requiere un uso particular de los periódicos, una forma particular de consultarlos que contribuya a alimentar la concepción de la interacción con la colección impresso. Sin embargo, los diversos usos se ponen a disposición de todos los investigadores en una misma interfaz, en un esfuerzo por ofrecer una diversificación de estas interacciones y enriquecer todo tipo de prácticas de investigación, incluidas también las prácticas docentes, en el espíritu de las interfaces generosas.
Por el lado de la docencia, Martin Grandjean y Sandra Bott han estado utilizando parte del impresso corpus para impartir un curso de Humanidades Digitales/Historia Digital, parte del programa de Ciencias Sociales y Humanas de la EPFL. El curso se centra en cómo se cubrieron en la prensa los grandes acontecimientos del siglo XX; Los archivos digitales de periódicos proporcionan a los estudiantes una rica fuente de materiales en los que se puede probar una variedad de métodos y herramientas digitales. El mismo curso está previsto para el próximo año y se basará en la interfaz y las herramientas de impresso, lo que nos permitirá probar la fuerza y las debilidades de estas herramientas específicamente en un contexto de enseñanza (en lugar de investigación).
En el marco de Ranke2, la plataforma preparada en el C2DH que ofrece materiales didácticos sobre cómo practicar la crítica de fuentes digitales, el proyecto impresso contribuye a la preparación de un módulo dedicado al uso de periódicos digitalizados. Este módulo recoge las lecciones aprendidas con la preparación de una interfaz transparente, adaptada a la enseñanza de nivel de licenciatura y secundaria, trayendo las últimas tendencias de las prácticas de investigación a las aulas.
¿Dónde estás en el proyecto - y cuál es el siguiente paso?
La versión beta de la interfaz impresso se lanzó en mayo de 2019. Por ahora es una versión privada, destinada principalmente a obtener comentarios sobre el diseño y las funcionalidades de la interfaz de nuestros historiadores asociados. En términos de datos, la interfaz da acceso a 22 periódicos suizos para un total de casi 3,2 millones de páginas, 360.000 números de periódicos y más de 26 millones de artículos de contenido (por ejemplo, artículos, anuncios, etc.), principalmente en francés y alemán.
En cuanto a las funcionalidades de la interfaz, la versión beta contiene todas las características básicas que espera de una interfaz de periódico: búsqueda, facetas de búsqueda y un espectador que le permite leer y explorar artículos de periódicos. Además, proporciona algunas características más avanzadas, como la capacidad de buscar entidades nombradas, usar modelos de temas como filtros para reducir los resultados de búsqueda y la posibilidad de que el usuario cree y guarde colecciones de elementos. Las nuevas funcionalidades que se agregaron en la última versión incluyen la primera versión de búsqueda visual (capacidad de filtrar todas las imágenes disponibles, por fecha y periódico) y la descarga masiva de metadatos.
¿Qué pasará después? En el mes de julio lanzaremos la versión pública de la interfaz, con nuevas funcionalidades, así como nuevas fuentes de periódicos (sobre todo los materiales digitalizados de la Biblioteca Nacional de Luxemburgo). La mejor manera de seguir el proyecto a medida que se desarrolla es unirse a la lista de correo Impresiono, y a nuestro grupo de historiadores asociados, o seguirnos en Twitter, ya que habrá algunas novedades emocionantes en los próximos meses.
