Marco Rendina: Să începem prin despachetarea OCR. Ce este și de ce este relevant pentru conservarea patrimoniului cultural?
Tom Vanallemeersch: OCR (Optical Character Recognition) sau HTR (Handwritten Text Recognition) este o tehnologie care produce o transcriere digitală a textelor tipărite sau scrise de mână. Transcrierile documentelor scanate sunt în principal importante pentru căutare, deoarece permit utilizarea cuvintelor cheie pentru a căuta un anumit document sau pentru a căuta o anumită parte dintr-un document. Pentru a spori și mai mult această posibilitate de căutare, transcrierile pot fi traduse utilizând traducerea automată, permițând utilizatorilor să caute cuvinte în documente în diferite limbi, utilizând, de exemplu, doar un termen de căutare în limba engleză.
MR: Cât de eficientă este tehnologia OCR de ultimă generație?
Televiziune: În ultimii ani s-au înregistrat progrese remarcabile în tehnologia OCR, iar unele modele OCR au performanțe impresionante, în special pe textele tipărite moderne. Există, de asemenea, o gamă largă de modele din ce în ce mai specializate care răspund unor nevoi diferite, cum ar fi textele din secolul al XVIII-lea sau scrisorile scrise de mână din cel de-al doilea război mondial.
Cu toate acestea, în pofida acestor progrese, persistă provocări din cauza unor factori precum stiluri diferite de scriere de mână și aspecte diferite ale textului, limbile implicate sau prezența „zgomotului” (caractere degradate sau hemoragie în documente cu două pagini, în care cerneala de pe partea din spate apare pe partea din față). Probleme precum recunoașterea greșită a caracterelor pot avea un impact dramatic asupra acurateței transcrierilor OCR, o problemă care devine deosebit de evidentă atunci când aceste rezultate sunt utilizate în scopuri de traducere.
Pe baza experienței noastre de la CrossLang cu dezvoltarea de sisteme pentru procesarea documentelor multilingve și automatizarea traducerilor, am abordat direct aceste provocări pentru a ne asigura că rezultatul OCR nu este doar precis, ci și pregătit pentru traducere.
MR: Poți să ne spui cum pregătești transcrierile OCR pentru traducere?
Televiziune: Cu siguranță. Pregătirea traducerii transcrierilor este un proces în mai mulți pași.
În primul rând, documentul sau imaginea este încărcată, iar tehnologia OCR este aplicată pentru a genera o transcriere digitală. Aceasta implică analizarea aspectului paginii și identificarea caracterelor din zonele de text. Acest proces fiind automatizat, rezultatul rezultat poate conține erori, cum ar fi recunoașterea greșită a caracterelor și spațiile lipsă. În plus, ieșirea OCR nu este de obicei segmentată, prezentând linii de caractere tipărite sau scrise de mână așa cum sunt afișate în imagine, fără nicio segmentare în propoziții. Deși acest lucru ar putea fi în regulă atât timp cât utilizatorul final poate citi textul în limba originală, utilizarea directă a rezultatului OCR, inclusiv a erorilor de ortografie și a lipsei de segmentare, va duce foarte probabil la traduceri inexacte.
Folosim diverse tehnici pentru a aborda aceste inexactități. Voi menționa două abordări principale. În primul rând, tehnicile de segmentare și dehyphenation sunt folosite pentru a identifica și separa propozițiile din text și pentru a elimina cratimele de divizare a cuvintelor de la sfârșitul liniilor. În al doilea rând, pentru a spori și mai mult acuratețea rezultatelor OCR, folosim instrumente bazate pe lexicon și modele lingvistice mari (LLM), inclusiv roboți de chat cu sursă deschisă, pentru identificarea și corectarea automată a erorilor în cuvinte pentru a alinia textul cât mai strâns posibil cu imaginea originală.
În cele din urmă, cu ieșirea OCR corectată, MT poate fi aplicată pentru a genera traduceri mai exacte. Acest pas se bazează pe calitatea textului de intrare, ceea ce face ca cele două etape anterioare de corecție automată să fie esențiale pentru obținerea unor rezultate MT utile.

MR: Cum evaluați dacă acest proces de corecție a avut succes?
Televiziune: Utilizăm valori automate, cum ar fi rata de eroare a caracterelor (CER) și rata de editare a traducerilor (TER), pentru a evalua acuratețea și calitatea rezultatelor OCR corectate și traducerea acestora. Aceste valori ne permit să comparăm rezultatul OCR corectat cu adevărul de bază (transcrierea dorită), oferind perspective valoroase asupra eficacității metodelor noastre. Curtea a observat îmbunătățiri semnificative în această privință, întrucât atât REC, cât și RTE scad, în general, după corectarea producției RCO.
De asemenea, uneori efectuăm inspecții manuale pentru a asigura acuratețea generală a unui text, deoarece chiar și o eroare minoră ar putea modifica sensul propoziției, ceea ce ar putea duce la neînțelegeri sau inexactități. Pot exista, de asemenea, cazuri în care cineva (cum ar fi un istoric) dorește să păstreze anumite elemente ale textului, inclusiv erori potențiale (cum ar fi cuvinte scrise greșit); în astfel de cazuri, un LLM ar putea „supracorecta” (în mod similar, acesta poate înlocui cuvintele scrise într-o variantă mai veche a unei limbi cu versiunile lor mai noi). Astfel de scenarii orientate spre conservare („transcriere diplomatică”) necesită o inspecție manuală atentă.
MR: Ce sfaturi ați oferi instituțiilor de patrimoniu cultural care doresc să integreze tehnologiile avansate de OCR și de traducere în eforturile lor de conservare?
Televiziune: Sfatul esențial pe care îl pot oferi este de a urmări îndeaproape evoluțiile proiectului AI4Culture. În octombrie 2024, vom oferi un atelier online destinat studenților și experților în domeniul patrimoniului cultural, în care vom explica aplicarea RCO și MT documentelor scanate într-un mod practic și vom oferi câteva detalii mai tehnice cu privire la aspecte precum corectarea automată a rezultatelor RCO. Deci, rămâneți la curent cu conturile de social media AI4Culture.
Aflați mai multe
În septembrie 2024, proiectul AI4Culture va lansa o platformă în care instrumentele deschise, cum ar fi instrumentele RCO prezentate mai sus, vor fi puse la dispoziție online, împreună cu documentația și materialele de formare conexe. Urmăriți pagina proiectului de pe Europeana Pro pentru mai multe detalii și rămâneți la curent cu proiectul LinkedIn și contul X!
