Marco Rendina: Alustame OCR-i lahtipakkimisest. Mis see on ja miks on see kultuuripärandi säilitamise seisukohast oluline?
Tom Vanallemeersch: OCR (Optical Character Recognition) või HTR (Handwritten Text Recognition) on tehnoloogia, mis toodab trükitud või käsitsi kirjutatud tekstide digitaalset ärakirja. Skaneeritud dokumentide transkriptsioonid on olulised peamiselt otsitavuse seisukohast, kuna need võimaldavad kasutada märksõnu konkreetse dokumendi otsimiseks või dokumendi konkreetse osa otsimiseks. Otsinguvõimaluste parandamiseks saab transkriptsioone tõlkida masintõlke abil, mis võimaldab kasutajatel otsida sõnu eri keeltes olevatest dokumentidest, kasutades näiteks ainult ingliskeelset otsingusõna.
MR: Kui tõhus on praegune tipptasemel OCR-tehnoloogia?
Televisioon: Viimastel aastatel on OCR-tehnoloogias tehtud märkimisväärseid edusamme ja mõned OCR-mudelid toimivad muljetavaldavalt hästi, eriti kaasaegsete trükitud tekstide puhul. Samuti on olemas lai valik üha spetsialiseeritumaid mudeleid, mis rahuldavad erinevaid vajadusi, näiteks 18. sajandi tekstid või käsitsi kirjutatud II maailmasõja kirjad.
Vaatamata nendele edusammudele püsivad probleemid selliste tegurite tõttu nagu erinevad käekirjastiilid ja tekstipaigutused, kaasatud keeled või müra (halvenenud tähemärgid või läbikriipsutatud kaheleheküljelistes dokumentides, kus tagakülje tint on esiküljel). Sellised probleemid nagu märkide valesti äratundmine võivad oluliselt mõjutada OCR-i transkriptsioonide täpsust, mis muutub eriti ilmseks, kui neid väljundeid kasutatakse tõlkimise eesmärgil.
Tuginedes CrossLangis saadud kogemustele mitmekeelsete dokumentide töötlemise ja tõlkimise automatiseerimise süsteemide väljatöötamisel, käsitlesime neid probleeme põhjalikult, tagamaks, et OCR-i väljund ei oleks mitte ainult täpne, vaid ka tõlkevalmis.
MR: Kas saate meid läbi viia, kuidas teete OCR-i transkriptsioonid tõlkimiseks valmis?
Televisioon: Kindlasti. Transkriptsioonide tõlkimiseks ettevalmistamine on mitmeastmeline protsess.
Esiteks laaditakse dokument või pilt üles ja digitaalse transkriptsiooni loomiseks rakendatakse OCR-tehnoloogiat. See hõlmab lehekülje paigutuse analüüsimist ja tekstiväljade tähemärkide tuvastamist. Kuna see protsess on automatiseeritud, võib tulemuseks olev väljund sisaldada vigu, nagu märgi valesti äratundmine ja puuduvad tühikud. Lisaks puudub OCR-väljundil tavaliselt segmenteerimine, esitades prinditud või käsitsi kirjutatud tähemärkide read, nagu need on pildil kuvatud, ilma segmentimiseta lauseteks. Kuigi see võib olla hea, kui lõppkasutaja saab lugeda teksti originaalkeeles, põhjustab OCR-i väljundi otsene kasutamine, sealhulgas selle õigekirjavead ja segmenteerimise puudumine, väga tõenäoliselt ebatäpseid tõlkeid.
Nende ebatäpsuste kõrvaldamiseks kasutame erinevaid meetodeid. Mainin kahte peamist lähenemisviisi. Esiteks kasutatakse tekstis lausete tuvastamiseks ja eraldamiseks ning ridade lõpust sõnade jagamise sidekriipsude eemaldamiseks segmenteerimise ja sidekriipsutamise tehnikaid. Teiseks kasutame OCR-väljundi täpsuse suurendamiseks leksikonil põhinevaid tööriistu ja suuri keelemudeleid, sealhulgas avatud lähtekoodiga juturoboteid, sõnade vigade automaatseks tuvastamiseks ja parandamiseks, et viia tekst võimalikult lähedale algsele pildile.
Korrigeeritud OCR-väljundiga saab MT-d kasutada täpsemate tõlgete loomiseks. See etapp tugineb sisendteksti kvaliteedile, mistõttu on kaks eelmist automaatset korrektsioonietappi olulised kasulike MT tulemuste saavutamiseks.

MR: Kuidas hindate, kas see parandusprotsess on olnud edukas?
Televisioon: Korrigeeritud OCR-väljundi ja selle tõlke täpsuse ja kvaliteedi hindamiseks kasutame automatiseeritud parameetreid, nagu märgi veamäär (CER) ja tõlke redigeerimise määr (TER). Need mõõdikud võimaldavad meil võrrelda korrigeeritud OCR-väljundit põhitõega (soovitud transkriptsioon), pakkudes väärtuslikku teavet meie meetodite tõhususe kohta. Oleme täheldanud selles osas märkimisväärseid täiustusi, kuna nii THV kui ka summaarne veamäär üldiselt vähenevad pärast OCRi väljundi korrigeerimist.
Samuti teostame aeg-ajalt käsitsi kontrolle, et tagada teksti üldine täpsus, kuna isegi väike viga võib muuta lause tähendust, mis võib põhjustada arusaamatusi või ebatäpsusi. Võib esineda ka juhtumeid, kus keegi (nagu ajaloolane) soovib säilitada teksti teatavaid elemente, sealhulgas võimalikke vigu (nt valesti sõnastatud sõnad); sellistel juhtudel võib LLM olla „ülekorrektne“ (sarnaselt võib see asendada keele vanemas variandis kirjutatud sõnad nende uuemate versioonidega). Sellised säilitamisele suunatud stsenaariumid (diplomaatiline transkriptsioon) nõuavad hoolikat käsitsi kontrollimist.
MR: Millist nõu annaksite kultuuripärandiasutustele, kes soovivad integreerida kõrgetasemelised ametliku kontrolli ja tõlketehnoloogiad oma säilitamispüüdlustesse?
Televisioon: Kõige olulisem nõuanne, mida saan anda, on jälgida tähelepanelikult projekti AI4Culture arengut. 2024. aasta oktoobris pakume kultuuripärandi üliõpilastele ja ekspertidele suunatud veebiseminari, kus selgitame OCRi ja MT kohaldamist skaneeritud dokumentide praktiliseks kasutamiseks ja esitame mõned tehnilised üksikasjad selliste aspektide kohta nagu OCRi väljundi automaatne korrigeerimine. Nii et olge kursis AI4Culture sotsiaalmeedia kontodega.
Uuri lähemalt
2024. aasta septembris käivitatakse projektiga AI4Culture platvorm, kus tehakse veebis kättesaadavaks avatud vahendid, nagu eespool esitatud ametliku kontrolli vahendid, ning nendega seotud dokumendid ja koolitusmaterjalid. Lisateabe saamiseks jälgige Europeana Pro projekti lehekülge ja jälgige projekti LinkedIn ja X kontot!
