Olá Matteo! Pode falar-nos do projeto impresso?
Matteo: Impresso (literalmente «o que foi impresso») é um projeto de investigação colaborativo e interdisciplinar financiado pela Fundação Nacional Suíça para a Ciência ao abrigo do regime de financiamento Sinergia. O objetivo do projeto é criar um quadro tecnológico para extrair, processar, ligar e explorar dados de arquivos de meios de comunicação impressos em grande escala.
O projeto envolve linguistas computacionais, humanistas digitais, designers, historiadores, bibliotecários e arquivistas, que estão a enfrentar o desafio de como enriquecer, representar, visualizar e analisar um grande corpus de jornais históricos digitalizados para fins de investigação. Os parceiros neste projeto são o DHLAB da EPFL, o Centro Luxemburguês de História Contemporânea e Digital (C2DH) e o Instituto de Linguística Computacional da Universidade de Zurique. A natureza interdisciplinar do impresso reflecte-se também no princípio do co-design que aplicamos ao longo de todo o projecto. Na prática, significa que os dados que criamos e as ferramentas para trabalhar com jornais digitalizados que estamos a desenvolver são moldados por um diálogo constante entre historiadores, designers, linguistas computacionais e humanistas digitais.
No que diz respeito à concepção e à motivação do impresso, a DHLAB participou anteriormente num projecto de investigação que envolveu o jornal suíço Le Temps, destinado a permitir o acesso a dois jornais digitalizados - Journal de Geneve e Gazette de Lausanne (que se fundiram em 1998 para se tornarem Le Temps). Os resultados deste projeto, bem como os desafios que surgiram, lançaram as bases para o impresso. A ideia de criar um arquivo de jornais digitalizados emprestou-se bem a ser ampliada para incluir mais fontes, bem como para olhar para além das fronteiras nacionais. Uma série de encontros em conferências e workshops entre Maud Ehrmann (DHLAB), Lars Wieneke (C2DH), Marten Düring (C2DH) e Simon Clematide (UZH) ajudou a reforçar e articular esta ideia no que se tornou uma proposta de financiamento bem-sucedida.
Como se envolveu com o projecto?
A minha colega e coordenadora de projeto Maud Ehrmann pediu-me para me juntar ao projeto no verão de 2017, quando uma mudança inesperada na equipa do projeto abriu a possibilidade de ter outra investigadora pós-doutorada para a apoiar nas tarefas que a DHLAB estava a liderar. Nessa altura, estava a trabalhar em Linked Books, outro projeto financiado pela SNF sobre a mineração de citações de literatura académica sobre a história de Veneza. O trabalho sobre o processamento de entidades nomeadas e a desambiguação que estamos a realizar no impresso está no centro dos meus interesses de investigação. Há também uma continuidade com o Linked Books e a minha investigação anterior sobre a extração de informação a partir de arquivos digitais de grande escala nas Humanidades, com citações (e mais geralmente entidades nomeadas) sendo uma das minhas principais áreas de interesse.
Qual é a importância dos conjuntos de dados de jornais para a pesquisa histórica?
Os jornais históricos são fontes primárias inestimáveis para os estudiosos de humanidades em geral, não apenas para os historiadores. De facto, eles contêm e preservam uma espécie de vestígio fossilizado das nossas sociedades atuais e passadas. Eles gravam todos os tipos de eventos, desde declarações de guerra a bailes de dança no campo, e documentam muitos aspectos do dia-a-dia e da cultura. Contêm informações extremamente ricas e densas, que também são contínuas, uma vez que, em muitos casos, estes jornais funcionam há muito tempo e são publicados de forma muito regular.
Um desafio crucial que estamos a enfrentar no impresso é como conceber uma ferramenta que ajude os investigadores a trabalhar com grandes arquivos de jornais digitalizados. A ferramenta integra tecnologias de processamento de linguagem natural (por exemplo, processamento de entidades nomeadas ou modelização de tópicos) para capturar a semântica dos conteúdos de jornais, a fim de tornar estas fontes (melhoradas) utilizáveis para investigação. Um princípio importante que estamos a seguir na sua conceção é a transparência, o que significa que nos esforçamos por tornar explícitos e visíveis para os utilizadores todos os aspetos dos dados - ou do tratamento que efetuamos nos dados - que muitas vezes correm o risco de permanecer ocultos nas interfaces de pesquisa. Os aspetos de informação que queremos tornar mais transparentes incluem, por exemplo, a qualidade do OCR, bem como lacunas nos dados devido a arquivos digitais danificados.
Como são utilizadas as ferramentas impressas?
Apesar de o projeto impresso ainda estar em fase de elaboração, o seu corpus e ferramentas estão a ser ativamente utilizados tanto para a investigação como para o ensino.
Do lado da investigação, a Dr.a Estelle Bunout (C2DH) - uma das historiadoras (digitais) do nosso projeto - está a trabalhar num estudo de caso intitulado «Resistência à Europa», que envolve a análise de debates sobre a ideia europeia em jornais digitalizados do Luxemburgo, da Suíça e de outros países, com o objetivo de identificar tensões em torno da ideia europeia desde o final do século XIX até 1945. E investigadores dos nossos parceiros associados, a associação Infoclio e o Departamento de História da Universidade de Lausanne, estão a contribuir para a reflexão sobre a forma de aplicar ferramentas impressas a questões de investigação histórica no contexto de casos de utilização concretos.
Por último, lançámos um concurso para investigadores associados durante o primeiro ano do projeto, a fim de alargar o círculo de historiadores afiliados ao projeto. Como resultado, cerca de 20 historiadores, principalmente do Benelux, França, Alemanha e Suíça, manifestaram o seu interesse nas ferramentas e coleções reunidas por impresso e envolveram-se no projeto. A sua associação implica não só a utilização dos resultados do projeto, mas também um diálogo regular com a equipa do impresso, através de seminários e de uma conferência final destinada a recolher reações sobre a sua utilização de ferramentas impressas e a sua investigação, bem como a debater questões epistemológicas suscitadas pelos jornais digitalizados.
A diversidade de temas e métodos dos investigadores associados reflete o fascínio dos jornais (digitalizados) suíços e luxemburgueses como fontes históricas. Incluem estudos prosopográficos sobre peritos e correspondentes de guerra do sexo feminino, bem como sobre a «história dos pensamentos», como a ascensão do internacionalismo liberal no final do século XIX, ou a história bancária. Cada um destes tópicos de pesquisa requer um uso particular dos jornais, uma forma particular de consultá-los que contribui para alimentar a concepção da interação com a coleção impressa. As diversas utilizações são, no entanto, disponibilizadas a todos os investigadores na mesma interface, num esforço para oferecer uma diversificação destas interações e enriquecer todos os tipos de prática de investigação, incluindo também as práticas de ensino, no espírito das interfaces generosas.
Do lado do ensino, Martin Grandjean e Sandra Bott têm vindo a utilizar parte do corpus impresso no ensino de um curso de Humanidades Digitais/História Digital, parte do programa de Ciências Sociais e Humanas da EPFL. O curso centra-se na forma como os grandes acontecimentos do século XX foram abordados na imprensa; os arquivos digitais de jornais fornecem aos alunos uma fonte rica de materiais sobre os quais uma série de métodos e ferramentas digitais podem ser testados. O mesmo curso está previsto para o próximo ano e será baseado na interface e ferramentas impressas, permitindo-nos assim testar a força e fraqueza destas ferramentas especificamente num contexto de ensino (em vez de investigação).
No âmbito do Ranke2, a plataforma preparada no C2DH que oferece materiais didáticos sobre como praticar a crítica de fontes digitais, o projeto impresso contribui com a preparação de um módulo dedicado à utilização de jornais digitalizados. Este módulo recolhe as lições aprendidas com a preparação de uma interface transparente, adaptada ao ensino de licenciatura e secundário, trazendo as últimas tendências das práticas de investigação para as salas de aula.
Onde está a trabalhar no projeto - e qual é o próximo passo?
A versão beta da interface impressa foi lançada em maio de 2019. Por enquanto, trata-se de uma versão privada, destinada principalmente a obter reações dos nossos historiadores associados sobre a conceção e as funcionalidades da interface. Em termos de dados, a interface dá acesso a 22 jornais suíços num total de quase 3,2 milhões de páginas, 360 000 números de jornais e mais de 26 milhões de conteúdos (por exemplo, artigos, anúncios, etc.), principalmente em francês e alemão.
Quanto às funcionalidades da interface, a versão beta contém todas as funcionalidades básicas esperadas de uma interface de jornal: pesquisa, facetas de pesquisa e um espetador que lhe permite ler e explorar artigos de jornal. Além disso, fornece algumas funcionalidades mais avançadas, como a capacidade de procurar entidades nomeadas, de utilizar modelos de tópicos como filtros para restringir os resultados da pesquisa e a possibilidade de o utilizador criar e guardar coleções de itens. As novas funcionalidades que foram adicionadas na última versão incluem a primeira versão da pesquisa visual (capacidade de filtrar todas as imagens disponíveis, por data e jornal) e o descarregamento em massa de metadados.
O que acontecerá a seguir? No mês de julho, publicaremos a versão pública da interface, com novas funcionalidades, bem como novas fontes jornalísticas (nomeadamente os materiais digitalizados da Biblioteca Nacional do Luxemburgo). A melhor forma de acompanhar o projeto à medida que continua a desenvolver-se é juntar-se à lista de endereços impressos - e ao nosso grupo de historiadores associados - ou seguir-nos no Twitter, uma vez que haverá alguns novos desenvolvimentos interessantes nos próximos meses!
