Marco Rendina: Začnime rozbalením OCR. Čo to je a prečo je to dôležité pre zachovanie kultúrneho dedičstva?
Tom Vanallemeersch: OCR (Optical Character Recognition) alebo HTR (Handwritten Text Recognition) je technológia, ktorá vytvára digitálny prepis tlačených alebo ručne písaných textov. Prepisy naskenovaných dokumentov sú dôležité najmä z hľadiska vyhľadateľnosti, pretože umožňujú používať kľúčové slová na vyhľadávanie konkrétneho dokumentu alebo na vyhľadávanie konkrétnej časti v rámci dokumentu. Na ďalšie zlepšenie tejto možnosti vyhľadávania možno prepisy preložiť pomocou strojového prekladu, čo používateľom umožňuje vyhľadávať slová v dokumentoch v rôznych jazykoch napríklad len pomocou anglického hľadaného výrazu.
MR: Ako efektívna je súčasná najmodernejšia technológia OCR?
Televízia: V posledných rokoch sme zaznamenali pozoruhodný pokrok v technológii OCR a niektoré modely OCR fungujú pôsobivo dobre, najmä na moderných tlačených textoch. Existuje aj široká škála čoraz špecializovanejších modelov, ktoré uspokojujú rôzne potreby, ako sú texty z 18. storočia alebo ručne písané listy z druhej svetovej vojny.
Napriek tomuto pokroku však problémy pretrvávajú v dôsledku faktorov, ako sú rôzne štýly rukopisu a rozloženie textu, príslušné jazyky alebo prítomnosť „šumu“ (znížené znaky alebo prekrvácanie v dokumentoch s dvoma stranami, kde sa atrament zadnej strany zobrazuje na prednej strane). Problémy, ako je nesprávne rozpoznanie znakov, môžu dramaticky ovplyvniť presnosť prepisov OCR, čo je problém, ktorý sa stáva obzvlášť zrejmým, keď sa tieto výstupy používajú na účely prekladu.
Na základe našich skúseností v CrossLangu s vývojom systémov pre viacjazyčné spracovanie dokumentov a automatizáciu prekladu sme sa priamo zaoberali týmito výzvami, aby sme zabezpečili, že výstup OCR bude nielen presný, ale aj pripravený na preklad.
MR: Môžete nás prejsť tým, ako pripravujete prepisy OCR na preklad?
Televízia: Samozrejme. Príprava prepisov na preklad je viacstupňový proces.
Po prvé, dokument alebo obrázok sa nahrá a na generovanie digitálneho prepisu sa použije technológia OCR. To zahŕňa analýzu rozloženia stránky a identifikáciu znakov v textových oblastiach. Tento proces je automatizovaný, výsledný výstup môže obsahovať chyby, ako je nesprávne rozpoznanie znakov a chýbajúce medzery. Okrem toho výstupu OCR zvyčajne chýba segmentácia, ktorá predstavuje riadky tlačených alebo ručne písaných znakov tak, ako sú zobrazené na obrázku, bez akejkoľvek segmentácie na vety. Hoci to môže byť v poriadku, pokiaľ koncový používateľ dokáže čítať text v pôvodnom jazyku, priame použitie výstupu OCR vrátane jeho pravopisných chýb a nedostatočnej segmentácie bude s veľkou pravdepodobnosťou viesť k nepresným prekladom.
Používame rôzne techniky na riešenie týchto nepresností. Spomeniem dva hlavné prístupy. Po prvé, techniky segmentácie a dehyphenation sa používajú na identifikáciu a oddelenie viet v texte a odstránenie spojovníkov deliacich slová na konci riadkov. Po druhé, na ďalšie zvýšenie presnosti výstupu OCR používame nástroje založené na lexikónoch a veľké jazykové modely (LLM) vrátane chatbotov s otvoreným zdrojovým kódom na automatickú identifikáciu a opravu chýb v slovách s cieľom čo najviac zosúladiť text s pôvodným obrázkom.
Nakoniec, s opraveným výstupom OCR, MT možno použiť na generovanie prekladov, ktoré sú presnejšie. Tento krok sa opiera o kvalitu vstupného textu, takže predchádzajúce dva automatické korekčné kroky sú kľúčové na dosiahnutie užitočných výsledkov MT.

MR: Ako hodnotíte, či bol tento proces nápravy úspešný?
Televízia: Na posúdenie presnosti a kvality opraveného výstupu OCR a jeho prekladu používame automatizované metriky, ako je miera chybovosti znakov (CER) a miera úpravy prekladu (TER). Tieto metriky nám umožňujú porovnať korigovaný výstup OCR so základnou pravdou (želanou transkripciou), čo poskytuje cenné poznatky o účinnosti našich metód. V tejto súvislosti sme zaznamenali významné zlepšenia, keďže CER aj CMCH sa po korekcii výstupu OCR vo všeobecnosti znižujú.
Príležitostne vykonávame aj manuálne kontroly, aby sme zabezpečili celkovú presnosť textu, pretože aj malá chyba by mohla zmeniť význam vety, čo by mohlo viesť k nedorozumeniam alebo nepresnostiam. Môžu sa vyskytnúť aj prípady, keď si niekto (ako historik) želá zachovať určité prvky textu vrátane možných chýb (napríklad nesprávne napísané slová); v takýchto prípadoch by LLM mohol byť „nadmerne nesprávny“ (podobne môže nahradiť slová napísané v staršom variante jazyka ich novšími verziami). Takéto scenáre zamerané na zachovanie („diplomatický prepis“) si vyžadujú starostlivú manuálnu kontrolu.
MR: Aké poradenstvo by ste poskytli inštitúciám správy kultúrneho dedičstva, ktoré chcú začleniť pokročilé technológie OCR a prekladu do svojho úsilia o zachovanie kultúrneho dedičstva?
Televízia: Najdôležitejšou radou, ktorú môžem ponúknuť, je pozorne sledovať vývoj projektu AI4Culture. V októbri 2024 ponúkneme online seminár zameraný na študentov a odborníkov v oblasti kultúrneho dedičstva, na ktorom vysvetlíme uplatňovanie NÚK a MT na naskenované dokumenty praktickým spôsobom a poskytneme niektoré ďalšie technické podrobnosti o aspektoch, ako je automatizovaná oprava výstupov NÚK. Takže zostaňte naladení na účty sociálnych médií AI4Culture.
Ďalšie informácie
V septembri 2024 sa v rámci projektu AI4Culture spustí platforma, na ktorej budú online sprístupnené otvorené nástroje, ako sú uvedené nástroje NÚK, spolu so súvisiacou dokumentáciou a školiacimi materiálmi. Podrobnejšie informácie nájdete na stránke projektu Europeana Pro a pozrite sa na účet LinkedIn a X projektu.
