Salut Matteo! Pouvez-vous nous parler du projet impresso?
Matteo : Impresso (littéralement «ce qui a été imprimé») est un projet de recherche collaboratif et interdisciplinaire financé par le Fonds national suisse pour la science dans le cadre du programme de financement Sinergia. L’objectif du projet est de créer un cadre technologique permettant d’extraire, de traiter, de relier et d’explorer des données provenant d’archives de médias imprimés à grande échelle.
Le projet implique des linguistes informatiques, des humanistes numériques, des concepteurs, des historiens, des bibliothécaires et des archivistes, qui s'attaquent au défi d'enrichir, de représenter, de visualiser et d'analyser un grand corpus de journaux historiques numérisés à des fins de recherche. Les partenaires de ce projet sont le DHLAB de l’EPFL, le Luxembourg Center for Contemporary and Digital History (C2DH) et l’Institut de linguistique informatique de l’Université de Zurich. La nature interdisciplinaire d'impresso se reflète également dans le principe de co-conception que nous appliquons tout au long du projet. Ce que cela signifie en pratique, c'est que les données que nous créons et les outils de travail avec les journaux numérisés que nous développons sont façonnés par un dialogue constant entre historiens, concepteurs, linguistes computationnels et humanistes numériques.
En ce qui concerne la conception et la motivation de l’impression, le DHLAB avait déjà participé à un projet de recherche impliquant le journal suisse Le Temps, visant à donner accès à deux journaux numérisés, le Journal de Genève et la Gazette de Lausanne (qui ont fusionné en 1998 pour devenir Le Temps). Les résultats de ce projet, ainsi que les défis qui avaient émergé, ont jeté les bases de l'impression. L'idée de créer une archive de journaux numérisés se prêtait bien à être étendue pour inclure davantage de sources ainsi que pour regarder au-delà des frontières nationales. Une série de rencontres lors de conférences et d’ateliers entre Maud Ehrmann (DHLAB), Lars Wieneke (C2DH), Marten Düring (C2DH) et Simon Clematide (UZH) ont contribué à renforcer et à articuler cette idée dans ce qui est devenu une proposition de financement réussie.
Comment vous êtes-vous impliqué dans le projet?
Ma collègue et coordinatrice de projet Maud Ehrmann m'a demandé de rejoindre le projet à l'été 2017, lorsqu'un changement inattendu dans l'équipe du projet a ouvert la possibilité d'avoir un autre chercheur post-doc pour l'aider dans les tâches que le DHLAB menait. À cette époque, je travaillais sur Linked Books, un autre projet financé par SNF sur l’extraction de citations de littérature savante sur l’histoire de Venise. Le travail sur le traitement des entités nommées et la désambiguïsation que nous effectuons dans impresso est au cœur de mes intérêts de recherche. Il y a aussi une continuité avec Linked Books et mes recherches antérieures sur l'extraction d'informations à partir d'archives numériques à grande échelle en sciences humaines, les citations (et plus généralement les entités nommées) étant l'un de mes principaux domaines d'intérêt.
Quelle est l'importance des ensembles de données de journaux pour la recherche historique?
Les journaux historiques sont des sources primaires inestimables pour les chercheurs en sciences humaines en général, et pas seulement pour les historiens. En fait, ils contiennent et préservent une sorte de trace fossilisée de nos sociétés actuelles et passées. Ils enregistrent toutes sortes d'événements, des déclarations de guerre aux bals de danse du samedi soir à la campagne, et ils documentent de nombreux aspects de la vie quotidienne et de la culture. Ils contiennent des informations extrêmement riches et denses, qui sont également continues car, dans de nombreux cas, ces journaux fonctionnent depuis longtemps et sont publiés très régulièrement.
Un défi crucial que nous relevons dans l'impresso est de concevoir un outil qui aide les chercheurs à travailler avec de grandes archives de journaux numérisés. L'outil intègre des technologies de traitement du langage naturel (par exemple, le traitement d'entités nommées ou la modélisation de sujets) pour capturer la sémantique du contenu des journaux, afin de rendre ces sources (améliorées) utilisables pour la recherche. Un principe important que nous suivons dans sa conception est la transparence, ce qui signifie que nous nous efforçons de rendre explicite et visible pour les utilisateurs tous les aspects des données - ou du traitement que nous effectuons sur les données - qui risquent souvent de rester cachés dans les interfaces de recherche. Les aspects de l'information que nous voulons rendre plus transparents comprennent, par exemple, la qualité OCR, ainsi que les trous dans les données en raison d'archives numériques endommagées.
Comment les outils d'impression sont-ils utilisés?
Malgré le fait que le projet impresso est toujours en cours de réalisation, son corpus et ses outils sont activement utilisés à la fois pour la recherche et l'enseignement.
Du côté de la recherche, Mme Estelle Bunout (C2DH), l’une des historiennes (numériques) de notre projet, travaille sur une étude de cas intitulée «Résistance à l’Europe», qui consiste à analyser les débats sur l’idée européenne dans des journaux numérisés du Luxembourg, de Suisse et d’ailleurs, dans le but d’identifier les tensions autour de l’idée européenne de la fin du XIXe siècle à 1945. Et des chercheurs de nos partenaires associés, l’association Infoclio et le département d’histoire de l’Université de Lausanne, contribuent à la réflexion sur la manière d’appliquer les outils d’impression aux questions de recherche historique dans le contexte de cas d’utilisation concrets.
Enfin, nous avons lancé un appel aux chercheurs associés au cours de la première année du projet afin d'élargir le cercle des historiens affiliés au projet. En conséquence, une vingtaine d'historiens principalement du Benelux, de France, d'Allemagne et de Suisse ont exprimé leur intérêt à la fois pour les outils et les collections rassemblés par impresso et se sont impliqués dans le projet. Leur association implique non seulement l’utilisation des résultats du projet, mais aussi un dialogue régulier avec l’équipe d’impresso, au moyen d’ateliers et d’une conférence finale visant à recueillir des retours d’information sur leur utilisation des outils d’impresso et leurs recherches, et à discuter des questions épistémologiques soulevées par les journaux numérisés.
La diversité des sujets et des méthodes des chercheurs associés reflète l’attrait des journaux suisses et luxembourgeois (numérisés) en tant que sources historiques. Il s’agit notamment de recherches prosopographiques sur des experts et des correspondantes de guerre, ainsi que sur «l’histoire de la pensée», telle que la montée de l’internationalisme libéral à la fin du XIXe siècle, ou l’histoire bancaire. Chacun de ces sujets de recherche nécessite une utilisation particulière des journaux, une façon particulière de les interroger qui contribue à alimenter la conception de l'interaction avec la collection impresso. Les divers usages sont cependant mis à la disposition de tous les chercheurs dans une même interface, dans le but d'offrir une diversification de ces interactions et d'enrichir chaque type de pratique de recherche, y compris les pratiques pédagogiques, dans l'esprit des interfaces généreuses.
Du côté de l’enseignement, Martin Grandjean et Sandra Bott ont utilisé une partie de l’impresso corpus pour enseigner un cours d’histoire numérique/Humanités numériques, dans le cadre du programme de sciences sociales et humaines de l’EPFL. Le cours se concentre sur la façon dont les grands événements du 20ème siècle ont été couverts dans la presse; Les archives numériques des journaux fournissent aux étudiants une riche source de matériaux sur lesquels une gamme de méthodes et d'outils numériques peuvent être testés. Le même cours est prévu pour l'année prochaine et il sera basé sur l'interface et les outils d'impression, nous permettant ainsi de tester la force et les faiblesses de ces outils spécifiquement dans un contexte d'enseignement (plutôt que de recherche).
Dans le cadre de Ranke2, la plateforme préparée au C2DH proposant des supports pédagogiques sur la manière de pratiquer la critique des sources numériques, le projet impresso contribue à la préparation d'un module dédié à l'utilisation de journaux numérisés. Ce module récolte les leçons apprises avec la préparation d'une interface transparente, adaptée au niveau du baccalauréat et de l'enseignement secondaire, apportant les dernières tendances des pratiques de recherche dans les salles de classe.
Où en êtes-vous dans le projet - et quelle est la prochaine étape?
La version bêta de l'interface impresso est sortie en mai 2019. Pour l’instant, il s’agit d’une version privée, principalement destinée à obtenir des retours d’information sur la conception et les fonctionnalités de l’interface de la part de nos historiens associés. En termes de données, l'interface donne accès à 22 journaux suisses pour un total de près de 3,2 millions de pages, 360 000 numéros de journaux et plus de 26 millions d'éléments de contenu (articles, publicités, etc.), principalement en français et en allemand.
En ce qui concerne les fonctionnalités de l'interface, la version bêta contient toutes les fonctionnalités de base que vous attendez d'une interface de journal: Rechercher, rechercher des facettes et un spectateur qui vous permet de lire et d'explorer des articles de journaux. En outre, il fournit des fonctionnalités plus avancées, telles que la possibilité de rechercher des entités nommées, d'utiliser des modèles de rubriques comme filtres pour affiner les résultats de recherche et la possibilité pour l'utilisateur de créer et d'enregistrer des collections d'éléments. Les nouvelles fonctionnalités qui ont été ajoutées dans la dernière version comprennent la première version de la recherche visuelle (capacité de filtrer toutes les images disponibles, par date et par journal) et le téléchargement en masse des métadonnées.
Que va-t-il se passer ensuite? Au mois de juillet, nous publierons la version publique de l'interface, avec de nouvelles fonctionnalités ainsi que de nouvelles sources de journaux (notamment les documents numérisés de la Bibliothèque nationale du Luxembourg). La meilleure façon de suivre le projet au fur et à mesure qu’il se développe est de rejoindre la liste de diffusion d’impresso - et notre groupe d’historiens associés - ou de nous suivre sur Twitter, car il y aura quelques nouveaux développements passionnants dans les mois à venir!
