Marco Rendina: Commençons par déballer l'OCR. Qu'est-ce que c'est, et pourquoi est-ce pertinent pour la préservation du patrimoine culturel?
Tom Vanallemeersch: OCR (Optical Character Recognition) ou HTR (Handwritten Text Recognition) est une technologie qui produit une transcription numérique de textes imprimés ou manuscrits. Les transcriptions de documents numérisés sont principalement importantes pour la recherche car elles permettent d'utiliser des mots clés pour rechercher un document spécifique ou pour rechercher une partie spécifique dans un document. Pour améliorer encore cette facilité de recherche, les transcriptions peuvent être traduites à l’aide de la traduction automatique, ce qui permet aux utilisateurs de rechercher des mots dans des documents dans différentes langues en utilisant, par exemple, uniquement un terme de recherche en anglais.
MR : Quelle est l'efficacité de la technologie OCR actuelle?
TV : Ces dernières années ont vu des progrès remarquables dans la technologie OCR, et certains modèles OCR fonctionnent remarquablement bien, en particulier sur les textes imprimés modernes. Il existe également un large éventail de modèles de plus en plus spécialisés répondant à différents besoins, tels que des textes du XVIIIe siècle ou des lettres manuscrites de la Seconde Guerre mondiale.
Toutefois, malgré ces avancées, des défis persistent en raison de facteurs tels que les différents styles d’écriture et la mise en page du texte, les langues concernées ou la présence de «bruit» (caractères dégradés ou saignés dans les documents à double page, où l’encre de l’arrière apparaît sur la face avant). Des problèmes tels que la mauvaise reconnaissance des caractères peuvent avoir un impact considérable sur la précision des transcriptions OCR, un problème qui devient particulièrement évident lorsque ces sorties sont utilisées à des fins de traduction.
Sur la base de notre expérience chez CrossLang avec le développement de systèmes pour le traitement multilingue des documents et l'automatisation de la traduction, nous avons relevé ces défis de front pour nous assurer que la sortie OCR est non seulement précise, mais également prête pour la traduction.
MR : Pouvez-vous nous expliquer comment vous préparez les transcriptions OCR pour la traduction?
TV : Certainement. Rendre les transcriptions prêtes à la traduction est un processus en plusieurs étapes.
Tout d'abord, le document ou l'image est téléchargé et la technologie OCR est appliquée pour générer une transcription numérique. Cela implique d'analyser la mise en page et d'identifier les caractères dans les zones de texte. Ce processus étant automatisé, la sortie résultante peut contenir des erreurs telles que la méconnaissance des caractères et des espaces manquants. En outre, la sortie OCR manque généralement de segmentation, présentant des lignes de caractères imprimés ou manuscrits tels qu'ils sont affichés dans l'image, sans aucune segmentation en phrases. Bien que cela puisse convenir tant que l'utilisateur final peut lire le texte dans la langue d'origine, l'utilisation directe de la sortie OCR, y compris ses erreurs d'orthographe et son manque de segmentation, entraînera très probablement des traductions inexactes.
Nous utilisons diverses techniques pour remédier à ces inexactitudes. Je mentionnerai deux approches principales. Tout d'abord, des techniques de segmentation et de déshyphénation sont utilisées pour identifier et séparer les phrases dans le texte et supprimer les traits d'union qui divisent les mots à la fin des lignes. Deuxièmement, pour améliorer encore la précision de la sortie OCR, nous utilisons des outils basés sur des lexiques et des modèles grand langage (LLM), y compris des chatbots open source, pour identifier et corriger automatiquement les erreurs de mots afin d'aligner le texte le plus étroitement possible sur l'image d'origine.
Enfin, avec la sortie OCR corrigée, MT peut être appliqué pour générer des traductions plus précises. Cette étape repose sur la qualité du texte d'entrée, ce qui rend les deux étapes de correction automatique précédentes cruciales pour obtenir des résultats MT utiles.

MR : Comment évaluez-vous le succès de ce processus de correction?
TV : Nous utilisons des mesures automatisées telles que le taux d'erreur de caractère (CER) et le taux d'édition de traduction (TER) pour évaluer l'exactitude et la qualité de la sortie OCR corrigée et de sa traduction. Ces métriques nous permettent de comparer la sortie OCR corrigée avec la vérité de base (la transcription souhaitée), fournissant des informations précieuses sur l'efficacité de nos méthodes. Nous avons observé des améliorations significatives à cet égard, car le CER et le TER diminuent généralement après la correction de la production d'OCR.
Nous effectuons également occasionnellement des inspections manuelles pour assurer l'exactitude globale d'un texte, car même une erreur mineure pourrait modifier le sens de la phrase, pouvant entraîner des malentendus ou des inexactitudes. Il peut également y avoir des cas où quelqu'un (comme un historien) souhaite préserver certains éléments du texte, y compris des erreurs potentielles (telles que des mots mal orthographiés); dans de tels cas, un LLM peut «surcorriger» (de même, il peut remplacer des mots écrits dans une variante plus ancienne d’une langue par leurs versions plus récentes). Ces scénarios axés sur la préservation («transcription diplomatique») nécessitent une inspection manuelle minutieuse.
MR : Quels conseils donneriez-vous aux institutions du patrimoine culturel qui souhaitent intégrer des technologies avancées de ROC et de traduction dans leurs efforts de préservation?
TV : Le conseil primordial que je peux vous offrir est de suivre de près les développements du projet AI4Culture. En octobre 2024, nous proposerons un atelier en ligne destiné aux étudiants et aux experts du patrimoine culturel, dans lequel nous expliquerons l’application de l’OCR et de la MT aux documents numérisés de manière pratique et fournirons des détails techniques supplémentaires sur des aspects tels que la correction automatisée des résultats de l’OCR. Alors restez à l'écoute sur les comptes de médias sociaux AI4Culture.
En savoir plus
En septembre 2024, le projet AI4Culture lancera une plateforme où les outils ouverts, tels que les outils OCR présentés ci-dessus, seront mis à disposition en ligne, ainsi que la documentation et le matériel de formation connexes. Gardez un œil sur la page du projet sur Europeana Pro pour plus de détails et restez à l'écoute sur le compte LinkedIn et X du projet!
