Marco Rendina: Začnimo z razpakiranjem OCR. Kaj je to in zakaj je pomembno za ohranjanje kulturne dediščine?
Tom Vanallemeersch: OCR (optično prepoznavanje znakov) ali HTR (prepoznavanje ročno napisanega besedila) je tehnologija, ki proizvaja digitalni prepis tiskanih ali ročno napisanih besedil. Prepisi skeniranih dokumentov so v glavnem pomembni za iskanje, saj omogočajo uporabo ključnih besed za iskanje določenega dokumenta ali za iskanje določenega dela v dokumentu. Za dodatno izboljšanje možnosti iskanja se lahko prepisi prevedejo z uporabo strojnega prevajanja, kar uporabnikom omogoča iskanje besed v dokumentih v različnih jezikih, na primer z uporabo samo angleškega iskalnega izraza.
MR: Kako učinkovita je najsodobnejša tehnologija OCR?
Televizija: V zadnjih letih je bil dosežen izjemen napredek v tehnologiji OCR, nekateri modeli OCR pa so izjemno uspešni, zlasti pri sodobnih tiskanih besedilih. Obstaja tudi široka paleta vse bolj specializiranih modelov, ki izpolnjujejo različne potrebe, kot so besedila iz 18. stoletja ali ročno napisana pisma iz druge svetovne vojne.
Vendar kljub temu napredku izzivi ostajajo zaradi dejavnikov, kot so različni slogi rokopisa in postavitev besedila, zadevni jeziki ali prisotnost „hrupa“ (degradirani znaki ali krvavitve v dvostranskih dokumentih, kjer se črnilo na zadnji strani pojavi na sprednji strani). Vprašanja, kot je napačno prepoznavanje znakov, lahko dramatično vplivajo na natančnost transkripcij OCR, kar postane še posebej očitno, ko se ti rezultati uporabljajo za namene prevajanja.
Na podlagi naših izkušenj v podjetju CrossLang z razvojem sistemov za obdelavo večjezičnih dokumentov in avtomatizacijo prevajanja smo te izzive obravnavali neposredno, da bi zagotovili, da rezultati OCR niso le točni, temveč tudi pripravljeni za prevajanje.
MR: Ali nas lahko vodite skozi to, kako pripravite prepise OCR za prevod?
Televizija: Zagotovo. Priprava prepisov na prevod je večstopenjski postopek.
Prvič, dokument ali slika se naloži in tehnologija OCR se uporablja za ustvarjanje digitalnega prepisa. To vključuje analizo postavitve strani in identifikacijo znakov v besedilnih območjih. Ta postopek je avtomatiziran, rezultat pa lahko vsebuje napake, kot so napačno prepoznavanje znakov in manjkajoči presledki. Poleg tega izhod OCR običajno nima segmentacije, ki predstavlja vrstice tiskanih ali ročno napisanih znakov, kot so prikazani na sliki, brez segmentacije v stavke. Čeprav je to lahko v redu, če lahko končni uporabnik prebere besedilo v izvirnem jeziku, bo neposredna uporaba izhoda OCR, vključno z njegovimi pravopisnimi napakami in pomanjkanjem segmentacije, zelo verjetno povzročila netočne prevode.
Za odpravo teh netočnosti uporabljamo različne tehnike. Omenil bom dva glavna pristopa. Prvič, tehnike segmentacije in dešifriranja se uporabljajo za prepoznavanje in ločevanje stavkov v besedilu ter odstranjevanje vezajev za deljenje besed na koncu vrstic. Drugič, za dodatno izboljšanje natančnosti izhoda OCR uporabljamo orodja, ki temeljijo na leksikonu, in velike jezikovne modele (LLM), vključno z odprtokodnimi klepetalnimi boti, za samodejno prepoznavanje in popravljanje napak v besedah, da bi besedilo čim bolj uskladili z izvirno sliko.
Nazadnje, s popravljenim izhodom OCR se lahko MT uporabi za ustvarjanje natančnejših prevodov. Ta korak temelji na kakovosti vhodnega besedila, zaradi česar sta prejšnja dva koraka samodejnega popravka ključna za doseganje koristnih srednjeročnih rezultatov.

MR: Kako ocenjujete, ali je bil ta postopek popravka uspešen?
Televizija: Uporabljamo avtomatizirane meritve, kot sta stopnja napake znakov (CER) in stopnja urejanja prevodov (TER), da ocenimo natančnost in kakovost popravljenega izhoda OCR in njegovega prevoda. Te meritve nam omogočajo primerjavo popravljenega izhoda OCR s talno resnico (želeno transkripcijo), kar zagotavlja dragocen vpogled v učinkovitost naših metod. Sodišče je v zvezi s tem opazilo pomembne izboljšave, saj se CER in TER po popravku proizvodnje OCR na splošno zmanjšata.
Občasno izvajamo tudi ročne preglede, da zagotovimo splošno točnost besedila, saj lahko že manjša napaka spremeni pomen stavka, kar lahko povzroči nesporazume ali netočnosti. Obstajajo lahko tudi primeri, ko nekdo (kot zgodovinar) želi ohraniti nekatere elemente besedila, vključno z morebitnimi napakami (kot so napačno napisane besede); v takih primerih je lahko LLM „prekomerna“ (podobno lahko besede, napisane v starejši različici jezika, nadomesti z novejšimi različicami). Takšni scenariji, usmerjeni v ohranjanje („diplomatska transkripcija“), zahtevajo skrben ročni pregled.
MR: Kakšen nasvet bi dali ustanovam za varstvo kulturne dediščine, ki želijo v svoja prizadevanja za ohranjanje vključiti napredne tehnologije UUN in prevajanja?
Televizija: Najpomembnejši nasvet, ki ga lahko ponudim, je pozorno spremljanje razvoja projekta AI4Culture. Oktobra 2024 bomo organizirali spletno delavnico, namenjeno študentom in strokovnjakom s področja kulturne dediščine, na kateri bomo pojasnili praktično uporabo UUN in MT za skenirane dokumente ter zagotovili nekaj bolj tehničnih podrobnosti o vidikih, kot je samodejno popravljanje rezultatov UUN. Zato ostanite z nami na računih družbenih medijev AI4Culture.
Izvedite več
Septembra 2024 bo v okviru projekta AI4Culture vzpostavljena platforma, na kateri bodo na spletu na voljo odprta orodja, kot so zgoraj predstavljena orodja UUN, skupaj s povezano dokumentacijo in gradivom za usposabljanje. Bodite pozorni na stran projekta na Europeana Pro za več podrobnosti in ostanite na tekočem s projektom LinkedIn in X račun!
