Marco Rendina: Låt oss börja med att packa upp OCR. Vad är det och varför är det relevant för bevarandet av kulturarvet?
Tom Vanallemeersch: OCR (Optical Character Recognition) eller HTR (Handwritten Text Recognition) är en teknik som producerar en digital utskrift av tryckta eller handskrivna texter. Transkriptioner av skannade dokument är främst viktiga för sökbarheten eftersom de gör det möjligt att använda nyckelord för att söka efter ett visst dokument eller för att söka efter en viss del i ett dokument. För att ytterligare förbättra sökbarheten kan transkriptioner översättas med hjälp av maskinöversättning, vilket gör det möjligt för användare att söka efter ord i dokument på olika språk med hjälp av t.ex. endast en engelsk sökterm.
MR: Hur effektiv är nuvarande state-of-the-art OCR-teknik?
TV: De senaste åren har det gjorts anmärkningsvärda framsteg inom OCR-tekniken, och vissa OCR-modeller presterar imponerande bra, särskilt på moderna tryckta texter. Det finns också ett brett utbud av alltmer specialiserade modeller som tillgodoser olika behov, till exempel 1700-talstexter eller handskrivna brev från andra världskriget.
Trots dessa framsteg kvarstår dock utmaningar på grund av faktorer som olika handstilsstilar och textlayouter, de berörda språken eller förekomsten av ”buller” (nedbrusande tecken eller genomblödning i dubbelsidiga dokument, där bläcket på baksidan visas på framsidan). Problem som feligenkänning av tecken kan dramatiskt påverka noggrannheten i OCR-transkriptioner, ett problem som blir särskilt uppenbart när dessa utgångar används för översättningsändamål.
Baserat på vår erfarenhet på CrossLang med utvecklingen av system för flerspråkig dokumentbehandling och översättningsautomatisering tog vi itu med dessa utmaningar direkt för att säkerställa att OCR-utmatningen inte bara är korrekt utan också översättningsklar.
MR: Kan du gå igenom hur du gör OCR-transkriptioner redo för översättning?
TV: Visst är det så. Att göra transkriptionerna översättningsklara är en process i flera steg.
För det första laddas dokumentet eller bilden upp och OCR-teknik används för att generera ett digitalt transkript. Detta innebär att analysera sidlayouten och identifiera tecken i textområdena. Denna process är automatiserad, den resulterande utdatan kan innehålla fel som feligenkänning av tecken och saknade blanksteg. Dessutom saknar OCR-utdata vanligtvis segmentering och presenterar linjer med tryckta eller handskrivna tecken som de visas i bilden, utan segmentering i meningar. Även om detta kan vara bra så länge slutanvändaren kan läsa texten på originalspråket, med hjälp av OCR-utdata direkt, inklusive dess stavfel och brist på segmentering, kommer det med stor sannolikhet att leda till felaktiga översättningar.
Vi använder olika tekniker för att ta itu med dessa felaktigheter. Jag ska nämna två huvudsakliga tillvägagångssätt. För det första används segmenterings- och avstavningstekniker för att identifiera och separera meningar i texten och ta bort ordsplittrande bindestreck i slutet av raderna. För det andra, för att ytterligare förbättra noggrannheten i OCR-utgången, använder vi lexikonbaserade verktyg och stora språkmodeller (LLM), inklusive chatbots med öppen källkod, för att automatiskt identifiera och korrigera fel i ord för att anpassa texten så nära som möjligt med den ursprungliga bilden.
Slutligen, med den korrigerade OCR-utgången, kan MT användas för att generera översättningar som är mer exakta. Detta steg är beroende av kvaliteten på inmatningstexten, vilket gör de två föregående automatiska korrigeringsstegen avgörande för att uppnå användbara MT-resultat.

MR: Hur bedömer du om denna korrigeringsprocess har varit framgångsrik?
TV: Vi använder automatiserade mätvärden som teckenfelfrekvens (CER) och översättningsredigeringsfrekvens (TER) för att bedöma noggrannheten och kvaliteten på den korrigerade OCR-utmatningen och dess översättning. Dessa mätvärden gör det möjligt för oss att jämföra den korrigerade OCR-utgången med den grundläggande sanningen (den önskade transkriptionen), vilket ger värdefulla insikter om effektiviteten hos våra metoder. Vi har sett betydande förbättringar i detta avseende, eftersom både den certifierade utsläppsminskningen och den sammanlagda felprocenten i allmänhet minskar efter korrigeringen av produktionen av offentlig kontroll.
Vi utför också ibland manuella inspektioner för att säkerställa den övergripande noggrannheten i en text, eftersom även ett mindre fel kan ändra meningens mening, vilket kan leda till missförstånd eller felaktigheter. Det kan också finnas fall där någon (som en historiker) vill bevara vissa delar av texten, inklusive potentiella fel (t.ex. felaktigt stavade ord); I sådana fall kan en LLM ”överkorrigera” (på samma sätt kan den ersätta ord skrivna i en äldre variant av ett språk med deras nyare versioner). Sådana bevarandeinriktade scenarier (”diplomatisk transkription”) kräver noggrann manuell inspektion.
MR: Vilka råd skulle du ge till kulturarvsinstitutioner som vill integrera avancerad OCR- och översättningsteknik i sina bevarandeinsatser?
TV: Det viktigaste rådet jag kan erbjuda är att noga följa utvecklingen av AI4Culture-projektet. I oktober 2024 kommer vi att erbjuda en onlineworkshop riktad till kulturarvsstudenter och kulturarvsexperter, där vi förklarar tillämpningen av OCR och MT på skannade dokument på ett praktiskt sätt och ger några mer tekniska detaljer om aspekter såsom automatisk korrigering av OCR-utdata. Så håll ögonen öppna på AI4Culture sociala medier konton.
Läs mer
I september 2024 kommer AI4Culture-projektet att lansera en plattform där öppna verktyg, såsom de OCR-verktyg som presenteras ovan, kommer att göras tillgängliga online, tillsammans med tillhörande dokumentation och utbildningsmaterial. Håll ett öga på projektsidan på Europeana Pro för mer information och håll ögonen öppna på projektet LinkedIn och X-konto!
