À propos d'APOLLONIS
Dans le contexte de l’infrastructure grecque pour la recherche et l’innovation dans le domaine des arts, des sciences humaines et des langues numériques, APOLLONIS, une task-force désignée dirigée par ATHENA R.C., s’emploie à recenser et à soutenir les besoins des chercheurs lorsqu’ils accèdent à des archives disparates. Il se concentre sur les documents d'archives de la décennie des années 1940, une période turbulente de l'histoire grecque en raison de ses événements importants (IIe Guerre mondiale, Occupation, Opposition, Libération, Guerre civile), et a rassemblé des archives historiques numérisées de divers fournisseurs pour faire la lumière sur différents aspects historiques de ces événements.
La task-force poursuit deux objectifs principaux:
- Concevoir et développer un référentiel commun de métadonnées et d'index pour les personnes, les organisations, les lieux, les heures, les sujets et les événements, afin de permettre aux personnes de rechercher du contenu dans différentes archives
- Définir les activités et les flux de travail de curation numérique, afin que le travail effectué pour développer le référentiel puisse être répliqué, et soutenir une analyse et un traitement plus approfondis du contenu enrichi.
La task force, qui est toujours en cours, comprend des membres d’ATHENA R.C., coordinateur d’APOLLONIS, de l’Académie d’Athènes , de FORTH, de l’Institut des communications et des systèmes informatiques/NTUA, et de l’École des beaux-arts d’Athènes.
Rassembler les archives - le processus
Les activités du Groupe de travail sont interdisciplinaires et variées. Qu'il s'agisse de rassembler des ressources ou de les offrir sous une nouvelle forme aux chercheurs, nous enregistrons nos flux de travail. Ils comprennent le processus initial de conservation des archives numérisées, l'ingestion, l'indexation conjointe des données, la génération de représentations graphiques sémantiques et, enfin, leur publication. Ci-dessous, nous détaillons les processus que le groupe de travail a suivis pour y parvenir.
Après avoir acquis les documents sources, nous avons étudié leur structure et leur contenu afin de mapper différentes métadonnées d'archives sur un schéma de métadonnées commun, permettant l'indexation conjointe et l'établissement de liens sémantiques dans le contenu d'archives. Le schéma commun de métadonnées est une version enrichie du modèle de données Europeana (EDM).
L’étape suivante a été le nettoyage des données, au cours duquel des données «sales» comportant des erreurs typographiques et des valeurs invalides ou incorrectes ont été corrigées. Nous avons ensuite amélioré les ensembles de données en identifiant des informations supplémentaires et en les annotant dans les dossiers - ces informations sont principalement liées aux personnes, aux lieux, aux unités armées, aux dates et aux sujets récurrents, et nous avons donc bénéficié des techniques de traitement du langage naturel (NLP). Les défis abordés comprennent différents formats et schémas de contenu, des variations dans les vocabulaires et les terminologies, des incohérences dans la normalisation du contenu au sein d'une même collection et entre les collections, ainsi que des erreurs d'orthographe et de typographie, l'utilisation de caractères grecs et latins, des abréviations et des déclinaisons.
Les fichiers résultants ont été exprimés en format XML et agrégés. Ce processus de structuration laisse place à un enrichissement supplémentaire par des chercheurs familiers avec le sujet. Mais notre objectif principal est de prendre en charge les requêtes de recherche complexes. À cette fin, les données ont finalement été organisées en reliant différentes sources.
Les plans immédiats de la task force comprennent l’ingestion à grande échelle et l’indexation du matériel provenant d’un certain nombre d’archives afin de produire un graphique sémantique correspondant. L'incorporation de nouvelles archives serait la continuation naturelle de notre travail, et d'autres collaborations seraient les bienvenues.
Amélioration des archives à l'appui de la recherche
Ce travail en cours améliorera l'expérience utilisateur actuelle en facilitant l'accès au contenu de manière nouvelle et innovante, en plus de résoudre les problèmes de préservation. Les chercheurs qui utilisent APOLLONIS n'auront pas à chercher dans six archives différentes ou à faire face à des problèmes liés à la chronologie des éléments ou à la manière dont ils ont été enregistrés.
Lorsque nos travaux seront finalisés, les chercheurs pourront accéder simultanément à différentes archives et ressources enrichies. Ils pourront également utiliser les workflows de curation et d'analyse de contenu développés dans le cadre du projet. Le projet démontre et reflète donc comment la conservation numérique peut être une étape intermédiaire pour offrir des ressources utiles aux chercheurs, et comment les chercheurs peuvent collaborer avec les institutions du patrimoine culturel pour enrichir leurs ressources.
En savoir plus
La Task Force APOLLONIS est l'un des projets sur les ressources numériques de la Seconde Guerre mondiale qui sera discuté lors d'un webinaire organisé par Athena RC le 10 septembre 2020 dans le cadre de sa collaboration avec Europeana Research 2018-2020. Explorez le programme et inscrivez-vous!
