Marco Rendina: Lad os starte med at pakke OCR ud. Hvad er det, og hvorfor er det relevant for bevarelsen af kulturarven?
Tom Vanallemeersch: OCR (Optical Character Recognition) eller HTR (Handwritten Text Recognition) er en teknologi, der producerer en digital udskrift af trykte eller håndskrevne tekster. Transskriptioner af scannede dokumenter er hovedsagelig vigtige for søgbarheden, da de gør det muligt at bruge nøgleord til at søge efter et bestemt dokument eller til at søge efter en bestemt del i et dokument. For yderligere at forbedre denne søgbarhed kan transskriptioner oversættes ved hjælp af maskinoversættelse, hvilket gør det muligt for brugerne at søge efter ord i dokumenter på forskellige sprog ved hjælp af f.eks. kun et engelsk søgeord.
MR: Hvor effektiv er den nuværende state-of-the-art OCR-teknologi?
TV: I de senere år er der sket bemærkelsesværdige fremskridt inden for OCR-teknologi, og nogle OCR-modeller klarer sig imponerende godt, især på moderne trykte tekster. Der er også en bred vifte af stadig mere specialiserede modeller, der imødekommer forskellige behov, såsom tekster fra det 18. århundrede eller håndskrevne WWII-breve.
På trods af disse fremskridt er der dog stadig udfordringer på grund af faktorer som forskellige håndskriftsstile og tekstlayout, de involverede sprog eller tilstedeværelsen af "støj" (forringede tegn eller gennemblødning i dokumenter med to sider, hvor blækket på bagsiden vises på forsiden). Problemer som fejlgenkendelse af tegn kan dramatisk påvirke nøjagtigheden af OCR-transskriptioner, et problem, der bliver særligt tydeligt, når disse output bruges til oversættelsesformål.
Baseret på vores erfaring hos CrossLang med udvikling af systemer til flersproget dokumentbehandling og oversættelsesautomatisering adresserede vi disse udfordringer direkte for at sikre, at OCR-outputtet ikke kun er nøjagtigt, men også oversættelsesklart.
MR: Kan du guide os igennem, hvordan du gør OCR-transskriptioner klar til oversættelse?
TV: Bestemt. At gøre transskriptionerne klar til oversættelse er en flertrinsproces.
For det første uploades dokumentet eller billedet, og OCR-teknologien anvendes til at generere en digital udskrift. Dette indebærer analyse af sidelayoutet og identifikation af tegn i tekstområderne. Denne proces automatiseres, og det resulterende output kan indeholde fejl som f.eks. fejlgenkendelse af tegn og manglende mellemrum. Derudover mangler OCR-outputtet typisk segmentering og præsenterer linjer med trykte eller håndskrevne tegn, som de vises i billedet, uden nogen segmentering i sætninger. Selv om dette kan være fint, så længe slutbrugeren kan læse teksten på originalsproget, vil direkte brug af OCR-outputtet, herunder stavefejl og manglende segmentering, højst sandsynligt resultere i unøjagtige oversættelser.
Vi bruger forskellige teknikker til at løse disse unøjagtigheder. Jeg vil nævne to hovedtilgange. For det første anvendes segmenterings- og dehyphenationsteknikker til at identificere og adskille sætninger i teksten og fjerne ordsplittende bindestreger i slutningen af linjerne. For yderligere at forbedre nøjagtigheden af OCR-outputtet bruger vi leksikonbaserede værktøjer og store sprogmodeller (LLM'er), herunder open source-chatbots, til automatisk at identificere og korrigere fejl i ord for at tilpasse teksten så tæt som muligt til det oprindelige billede.
Endelig kan MT med den korrigerede OCR-output anvendes til at generere oversættelser, der er mere nøjagtige. Dette trin afhænger af kvaliteten af inputteksten, hvilket gør de to foregående automatiske korrektionstrin afgørende for at opnå nyttige MT-resultater.

MR: Hvordan vurderer du, om denne korrektionsproces har været vellykket?
TV: Vi bruger automatiserede målinger såsom tegnfejlfrekvens (CER) og oversættelsesredigeringsfrekvens (TER) til at vurdere nøjagtigheden og kvaliteten af det korrigerede OCR-output og oversættelsen heraf. Disse målinger giver os mulighed for at sammenligne den korrigerede OCR-output med jordsandheden (den ønskede transskription), hvilket giver værdifuld indsigt i effektiviteten af vores metoder. Vi har observeret betydelige forbedringer i denne henseende, da både CER og TER generelt falder efter korrektionen af OCR-outputtet.
Vi udfører også lejlighedsvis manuelle inspektioner for at sikre den overordnede nøjagtighed af en tekst, da selv en mindre fejl kan ændre sætningens betydning, hvilket muligvis resulterer i misforståelser eller unøjagtigheder. Der kan også være tilfælde, hvor nogen (som en historiker) ønsker at bevare visse elementer i teksten, herunder potentielle fejl (såsom forkert stavede ord); I sådanne tilfælde kan en LLM "overkorrigere" (på samme måde kan den erstatte ord, der er skrevet i en ældre variant af et sprog, med deres nyere versioner). Sådanne bevaringsorienterede scenarier ("diplomatisk transskription") kræver omhyggelig manuel inspektion.
MR: Hvilke råd vil du give til kulturarvsinstitutioner, der ønsker at integrere avancerede OCR- og oversættelsesteknologier i deres bevaringsindsats?
TV: Det vigtigste råd, jeg kan tilbyde, er nøje at følge udviklingen i AI4Culture-projektet. I oktober 2024 vil vi tilbyde en onlineworkshop rettet mod kulturarvsstuderende og -eksperter, hvor vi forklarer anvendelsen af OCR og MT på scannede dokumenter på en praktisk måde og giver nogle mere tekniske detaljer om aspekter såsom automatisk korrektion af OCR-output. Så stay tuned på AI4Culture sociale medier konti.
Læs mere
I september 2024 vil AI4Culture-projektet lancere en platform, hvor åbne værktøjer såsom ovennævnte OCR-værktøjer vil blive gjort tilgængelige online sammen med tilhørende dokumentation og uddannelsesmateriale. Hold øje med projektsiden på Europeana Pro for flere detaljer og hold øje med projektet LinkedIn og X konto!
