Lancée en 2016, la plateforme Transcribathon a été développée par deux projets de services génériques: Enrich Europeana (2018-2020) et Enrich Europeana Plus (2021-2023). La plate-forme permet aux volontaires de transcrire des textes historiques manuscrits dans différentes langues et à partir de différentes périodes historiques, en utilisant rien de plus que leur ordinateur. Depuis le début des projets, plus de 372 000 documents ont été transcrits par des bénévoles et transformés en fichiers texte numériques, contribuant ainsi à élargir et à enrichir les vastes collections d’articles du patrimoine culturel numérique d’Europeana.
En 2021, le projet Enrich Europeana Plus a commencé à mettre à jour la plateforme Transcribathon avec une technologie avancée de reconnaissance de l’écriture manuscrite, qui utilise l’intelligence artificielle pour fournir des transcriptions automatiques qui peuvent ensuite être vérifiées par des volontaires. L’un des plus grands fournisseurs de cette technologie est READ-COOP, une société coopérative européenne qui gère le logiciel populaire Transkribus. Enrich Europeana Plus a passé plusieurs mois à travailler avec READ-COOP et à intégrer sa technologie à la plateforme Transcribathon.
Lier Transcribathon à l’API « métagrapho »
Développé dans le cadre d’un projet financé par l’UE et dirigé par l’université d’Innsbruck, le logiciel Transkribus permet la transcription automatique à grande échelle de documents manuscrits historiques. La technologie utilise l’IA pour «apprendre» à lire des types spécifiques d’écriture, puis met en œuvre ces connaissances pour créer des transcriptions automatiques de textes. Cela accélère considérablement le processus de transcription: le transcripteur n'a plus besoin de passer des heures à écrire une transcription à partir de zéro, car il peut relire la transcription automatique à la place.
La technologie de reconnaissance de l'écriture manuscrite comme Transkribus est particulièrement idéale pour les projets de science citoyenne. Plus il est facile de transcrire ces documents, plus les volontaires peuvent traiter de documents dans un certain délai et plus le site web Europeana peut être enrichi rapidement. L'équipe de Transcribathon a donc tenu à implémenter cette technologie dans la plate-forme.
Pour ce faire, ils ont décidé d’utiliser l’API metagrapho de READ-COOP pour permettre à Transcribathon d’accéder à la technologie Transkribus. Une API est un logiciel qui agit comme un messager entre deux plates-formes différentes. Quelqu'un demande des informations sur une plate-forme, et la plate-forme envoie cette demande à l'API d'une autre plate-forme. Une fois que cette deuxième plate-forme a une réponse à la demande, l'API la ramène à la première plate-forme et la personne obtient les informations dont elle a besoin.
La plate-forme Transcribathon utilise l'API metagrapho exactement de cette manière. Lorsqu'un volontaire souhaite obtenir une transcription automatique d'un texte, il le demande sur la plateforme Transcribathon. Transcribathon envoie ensuite cette demande à l'API metagrapho, qui utilise la technologie de reconnaissance de l'écriture manuscrite pour traiter l'image et générer une transcription automatique. Enfin, une fois le traitement terminé, la plateforme Transcribathon peut accéder à la transcription et la montrer au volontaire, toujours via l'API metagrapho.
L'API metagrapho fournit non seulement la transcription, mais aussi les coordonnées de chaque ligne ou même mot trouvé dans l'image - ce qui n'était pas possible dans l'ancienne version de Transcribathon. Cette fonctionnalité permet ensuite d'utiliser les transcriptions pour d'autres applications, telles que la mise en évidence des mots clés correspondants dans le texte lors d'une recherche en texte intégral.
Un éditeur de transcription amélioré
La mise à jour de la technologie derrière Transcribathon signifiait que l'éditeur de transcription - la partie qu'un volontaire utilise pour entrer ses transcriptions - n'était plus en mesure de faire face au format de données plus riche qu'il recevait de l'API metagrapho. Par conséquent, READ-COOP a construit un éditeur de transcription personnalisé pour Transcribathon. Cela permet aux gens de cliquer sur une ligne de la transcription et de voir la ligne correspondante dans l'image du texte.
Pour accélérer le processus, READ-COOP a pris l'éditeur existant dans le logiciel Transkribus, l'a modifié pour répondre aux exigences de Transcribathon et l'a transformé en widget. Le widget a ensuite été simplement inséré dans la plate-forme Transcribathon, permettant aux utilisateurs d'accéder et de modifier les transcriptions générées par l'API metagrapho. L'utilisation de l'éditeur Transkribus existant et sa simple modification ont également permis d'économiser un temps et des coûts de développement précieux.
Le pouvoir de la collaboration
Ces mises à jour technologiques font passer Transcribathon au niveau supérieur. Au lieu de créer des transcriptions fastidieuses à partir de zéro, les volontaires peuvent maintenant simplement corriger les transcriptions générées automatiquement dans le nouvel éditeur de transcription, ce qui les aide à traiter beaucoup plus de documents au cours d'une exécution.
READ-COOP forme actuellement les modèles d'IA de reconnaissance de texte manuscrits sur la base de matériel déjà transcrit, ou pour du matériel qui sera bientôt transcrit, en Transcribathon. Plus le modèle d'IA est adapté au matériau mis au point, plus les transcriptions automatiques seront précises.
Par exemple, une prochaine édition du Transcribathon Run présentera des scans de cartes de rationnement des archives de l’État de Zagreb, qui ont été utilisées pendant la Seconde Guerre mondiale (à partir de 1941, 1945) comme forme de rationnement de la nourriture et d’autres ressources. Les cartes contiennent des indicateurs démographiques et socio-économiques pour les individus et / ou les ménages comme les titres, les emplois, et sont donc une riche source de matériel de recherche.
En préparation de cette course, READ-COOP a organisé un webinaire avec les employés de l'archive, pour leur montrer comment préparer les données de formation. Ces données d’entraînement seront ensuite utilisées pour former un modèle d’écriture manuscrite ou «enseigner» au moteur comment lire des documents de ce type, afin qu’il puisse fournir des transcriptions plus précises pendant la course. Ceci, combiné aux compétences de relecture des volontaires, devrait permettre aux archives de Zagreb de numériser un plus grand nombre de documents que jamais auparavant.
En savoir plus
Vous pouvez consulter le webinaire sur la préparation des données de formation dans cette vidéo. Vous trouverez l'intégration de l'éditeur pour la reconnaissance automatique de texte manuscrit sur la plate-forme Transcribathon et pouvez consulter les premiers résultats des documents de Dublin.
Ce billet a été écrit par Fiona Park, Content Manager READ-COOP SCE, et Philip Kahle, Software Developer, READ COOP.
