Marco Rendina: Laten we beginnen met het uitpakken van OCR. Wat is het en waarom is het relevant voor het behoud van cultureel erfgoed?
Tom Vanallemeersch: OCR (Optical Character Recognition) of HTR (Handwritten Text Recognition) is een technologie die een digitaal transcript van gedrukte of handgeschreven teksten produceert. Transcripties van gescande documenten zijn vooral belangrijk voor de doorzoekbaarheid, omdat ze het mogelijk maken trefwoorden te gebruiken om te zoeken naar een specifiek document of om te zoeken naar een specifiek onderdeel in een document. Om deze doorzoekbaarheid verder te verbeteren, kunnen transcripties worden vertaald met behulp van machinevertaling, waardoor gebruikers woorden in documenten in verschillende talen kunnen zoeken met bijvoorbeeld alleen een Engelse zoekterm.
MR: Hoe effectief is de huidige state-of-the-art OCR-technologie?
TV: De afgelopen jaren is er opmerkelijke vooruitgang geboekt op het gebied van OCR-technologie en sommige OCR-modellen presteren indrukwekkend goed, vooral op moderne gedrukte teksten. Er is ook een breed scala aan steeds meer gespecialiseerde modellen die voorzien in verschillende behoeften, zoals 18e-eeuwse teksten of handgeschreven brieven uit de Tweede Wereldoorlog.
Ondanks deze vooruitgang blijven er echter uitdagingen bestaan als gevolg van factoren zoals verschillende handschriftstijlen en tekstlay-outs, de betrokken talen of de aanwezigheid van “ruis” (vervalste tekens of doorbloeding in documenten met dubbele pagina’s, waarbij de inkt van de achterkant aan de voorkant verschijnt). Problemen zoals de verkeerde herkenning van tekens kunnen een dramatische invloed hebben op de nauwkeurigheid van OCR-transcripties, een probleem dat vooral duidelijk wordt wanneer deze uitvoer wordt gebruikt voor vertaaldoeleinden.
Op basis van onze ervaring bij CrossLang met de ontwikkeling van systemen voor meertalige documentverwerking en vertaalautomatisering, hebben we deze uitdagingen direct aangepakt om ervoor te zorgen dat de OCR-uitvoer niet alleen nauwkeurig is, maar ook vertaalklaar.
MR: Kunt u ons vertellen hoe u OCR-transcripties klaarmaakt voor vertaling?
TV: Zeker weten. De transcripties vertaalklaar maken is een proces in meerdere stappen.
Ten eerste wordt het document of de afbeelding geüpload en wordt OCR-technologie toegepast om een digitaal transcript te genereren. Dit omvat het analyseren van de pagina-indeling en het identificeren van tekens in de tekstgebieden. Aangezien dit proces geautomatiseerd is, kan de resulterende uitvoer fouten bevatten, zoals foutieve herkenning van tekens en ontbrekende spaties. Bovendien mist de OCR-uitvoer meestal segmentatie, waarbij lijnen met afgedrukte of handgeschreven tekens worden weergegeven zoals ze in de afbeelding worden weergegeven, zonder enige segmentatie in zinnen. Hoewel dit prima kan zijn zolang de eindgebruiker de tekst in de oorspronkelijke taal kan lezen, zal het direct gebruiken van de OCR-uitvoer, inclusief de spellingsfouten en het gebrek aan segmentatie, zeer waarschijnlijk resulteren in onjuiste vertalingen.
We gebruiken verschillende technieken om deze onnauwkeurigheden aan te pakken. Ik zal twee hoofdbenaderingen noemen. Ten eerste worden segmentatie- en dehyphenationtechnieken gebruikt om zinnen in de tekst te identificeren en te scheiden en woordsplitsende koppeltekens aan het einde van regels te verwijderen. Ten tweede, om de nauwkeurigheid van de OCR-uitvoer verder te verbeteren, gebruiken we op lexicon gebaseerde tools en Large Language Models (LLM's), inclusief open-source chatbots, voor het automatisch identificeren en corrigeren van fouten in woorden om de tekst zo nauw mogelijk af te stemmen op de originele afbeelding.
Ten slotte kan MT met de gecorrigeerde OCR-uitvoer worden toegepast om vertalingen te genereren die nauwkeuriger zijn. Deze stap is afhankelijk van de kwaliteit van de invoertekst, waardoor de vorige twee automatische correctiestappen cruciaal zijn voor het bereiken van bruikbare MT-resultaten.

MR: Hoe beoordeelt u of dit correctieproces succesvol is geweest?
TV: We gebruiken geautomatiseerde statistieken zoals Character Error Rate (CER) en Translation Edit Rate (TER) om de nauwkeurigheid en kwaliteit van de gecorrigeerde OCR-uitvoer en de vertaling ervan te beoordelen. Deze statistieken stellen ons in staat om de gecorrigeerde OCR-output te vergelijken met de grondwaarheid (de gewenste transcriptie), waardoor waardevolle inzichten worden verkregen in de effectiviteit van onze methoden. We hebben in dit verband aanzienlijke verbeteringen waargenomen, aangezien zowel CER als TER over het algemeen afnemen na de correctie van de OCR-output.
We voeren ook af en toe handmatige inspecties uit om de algehele nauwkeurigheid van een tekst te waarborgen, omdat zelfs een kleine fout de betekenis van de zin kan veranderen, mogelijk resulterend in misverstanden of onjuistheden. Er kunnen ook gevallen zijn waarin iemand (zoals een historicus) bepaalde elementen van de tekst wil behouden, inclusief mogelijke fouten (zoals verkeerd gespelde woorden); in dergelijke gevallen kan een LLM “overcorrigeren” (evenzo kan het woorden die in een oudere variant van een taal zijn geschreven, vervangen door hun nieuwere versies). Dergelijke op bewaring gerichte scenario’s (“diplomatieke transcriptie”) vereisen een zorgvuldige handmatige inspectie.
MR: Welk advies zou u geven aan instellingen voor cultureel erfgoed die geavanceerde OCR- en vertaaltechnologieën willen integreren in hun inspanningen voor behoud?
TV: Het belangrijkste advies dat ik kan geven is om de ontwikkelingen van het AI4Culture-project op de voet te volgen. In oktober 2024 zullen we een onlineworkshop aanbieden die gericht is op studenten en deskundigen op het gebied van cultureel erfgoed, waarin we de toepassing van OCR en MT op gescande documenten op een hands-on manier uitleggen en wat meer technische details verstrekken over aspecten zoals de geautomatiseerde correctie van OCR-uitvoer. Blijf dus op de hoogte van de sociale media-accounts van AI4Culture.
Meer informatie
In september 2024 zal het AI4Culture-project een platform lanceren waar open instrumenten, zoals de hierboven gepresenteerde OCR-instrumenten, online beschikbaar zullen worden gesteld, samen met bijbehorende documentatie en opleidingsmateriaal. Houd de projectpagina op Europeana Pro in de gaten voor meer details en blijf op de hoogte van het project LinkedIn en X account!
