Marco Rendina: Počnimo raspakiravanjem OCR-a. Što je to i zašto je važno za očuvanje kulturne baštine?
Tom Vanallemeersch: OCR (Optical Character Recognition) ili HTR (Handwritten Text Recognition) je tehnologija koja proizvodi digitalni transkript tiskanih ili rukom pisanih tekstova. Transkripcije skeniranih dokumenata uglavnom su važne za pretraživanje jer omogućuju upotrebu ključnih riječi za traženje određenog dokumenta ili za pretraživanje određenog dijela dokumenta. Kako bi se dodatno poboljšala ta mogućnost pretraživanja, prijepisi se mogu prevesti strojnim prevođenjem, čime se korisnicima omogućuje pretraživanje riječi u dokumentima na različitim jezicima s pomoću, primjerice, samo engleskog pojma za pretraživanje.
MR: Koliko je učinkovita trenutna najmodernija OCR tehnologija?
TV: Posljednjih godina zabilježen je značajan napredak u tehnologiji OCR-a, a neki modeli OCR-a postižu impresivno dobre rezultate, posebno na modernim tiskanim tekstovima. Postoji i širok raspon sve specijaliziranijih modela koji zadovoljavaju različite potrebe, kao što su tekstovi iz 18. stoljeća ili rukom pisana pisma iz Drugog svjetskog rata.
Međutim, unatoč tom napretku, izazovi i dalje postoje zbog čimbenika kao što su različiti stilovi rukopisa i tekstualni rasporedi, uključeni jezici ili prisutnost „buke” (degradirani znakovi ili prokrvarenje u dokumentima s dvije stranice, pri čemu se tinta na stražnjoj strani pojavljuje na prednjoj strani). Problemi poput pogrešnog prepoznavanja likova mogu dramatično utjecati na točnost OCR transkripcija, što je problem koji postaje posebno očit kada se ti izlazi koriste u svrhu prevođenja.
Na temelju našeg iskustva u CrossLangu s razvojem sustava za višejezičnu obradu dokumenata i automatizaciju prijevoda, izravno smo se bavili tim izazovima kako bismo osigurali da rezultati OCR-a nisu samo točni, već i spremni za prijevod.
MR: Možete li nas prošetati kroz način izrade OCR prijepisa spremnih za prijevod?
TV: Svakako. Izrada prijevoda spremnih za prijevod postupak je u više koraka.
Prvo se učitava dokument ili slika, a za generiranje digitalnog prijepisa primjenjuje se tehnologija OCR-a. To uključuje analizu izgleda stranice i identifikaciju znakova u tekstualnim područjima. Budući da je taj proces automatiziran, dobiveni izlaz može sadržavati pogreške kao što su pogrešno prepoznavanje znakova i nedostajući prostori. Osim toga, OCR izlaz obično nema segmentaciju, prikazujući linije tiskanih ili rukom pisanih znakova kako se prikazuju na slici, bez ikakve segmentacije u rečenice. Iako bi to moglo biti u redu sve dok krajnji korisnik može čitati tekst na izvornom jeziku, izravna upotreba izlaznog teksta OCR-a, uključujući pravopisne pogreške i nedostatak segmentacije, vrlo će vjerojatno dovesti do netočnih prijevoda.
Koristimo različite tehnike za rješavanje tih netočnosti. Spomenut ću dva glavna pristupa. Prvo, tehnike segmentacije i dehidracije koriste se za identifikaciju i odvajanje rečenica unutar teksta i uklanjanje crtica razdvajanja riječi na kraju redaka. Drugo, kako bismo dodatno poboljšali točnost OCR izlaza, koristimo alate temeljene na leksikonu i velike jezične modele (LLM), uključujući chatbotove otvorenog koda, za automatsko prepoznavanje i ispravljanje pogrešaka riječima kako bismo tekst što bliže uskladili s izvornom slikom.
Konačno, s ispravljenim OCR izlazom, MT se može primijeniti za generiranje točnijih prijevoda. Taj se korak temelji na kvaliteti ulaznog teksta, zbog čega su prethodna dva koraka automatske korekcije ključna za postizanje korisnih rezultata MT.

MR: Kako ocjenjujete je li taj postupak korekcije bio uspješan?
TV: Koristimo automatizirane mjerne podatke kao što su stopa pogreške znakova (CER) i stopa uređivanja prijevoda (TER) kako bismo procijenili točnost i kvalitetu ispravljenog OCR izlaza i njegova prijevoda. Ove metrike nam omogućuju usporedbu ispravljenog OCR izlaza s temeljnom istinom (željenom transkripcijom), pružajući vrijedne uvide u učinkovitost naših metoda. U tom smo pogledu primijetili znatna poboljšanja jer se i stopa preostale pogreške i stopa preostale pogreške općenito smanjuju nakon korekcije izlazne vrijednosti OCR-a.
Također povremeno provodimo ručne inspekcije kako bismo osigurali ukupnu točnost teksta, jer bi čak i manja pogreška mogla promijeniti značenje rečenice, što bi moglo dovesti do nesporazuma ili netočnosti. Mogu postojati i slučajevi u kojima netko (poput povjesničara) želi sačuvati određene elemente teksta, uključujući moguće pogreške (poput pogrešno napisanih riječi); u takvim slučajevima LLM može „prekomjerno ispraviti” (slično tome, može zamijeniti riječi napisane u starijoj varijanti jezika njihovim novijim verzijama). Takvi scenariji usmjereni na očuvanje („diplomatski prijepis”) zahtijevaju pažljiv ručni pregled.
MR: Koje biste savjete dali institucijama kulturne baštine koje žele integrirati napredne tehnologije OCR-a i prevođenja u svoje napore za očuvanje?
TV: Najvažniji savjet koji mogu ponuditi jest pomno praćenje razvoja projekta AI4Culture. U listopadu 2024. ponudit ćemo internetsku radionicu usmjerenu na studente i stručnjake u području kulturne baštine, u kojoj ćemo objasniti primjenu OCR-a i MT-a na skenirane dokumente na praktičan način i pružiti više tehničkih pojedinosti o aspektima kao što je automatizirana korekcija rezultata OCR-a. Stoga ostanite u toku s AI4Culture računima na društvenim mrežama.
Saznajte više
U rujnu 2024. u okviru projekta AI4Culture pokrenut će se platforma na kojoj će otvoreni alati, kao što su prethodno predstavljeni alati za OCR, biti dostupni na internetu, zajedno s povezanom dokumentacijom i materijalima za osposobljavanje. Pratite stranicu projekta na Europeana Pro-u za više detalja i pratite projekt LinkedIn i X račun!
