Marco Rendina: Začněme rozbalováním OCR. Co to je a proč je to důležité pro zachování kulturního dědictví?
Tom Vanallemeersch: OCR (Optical Character Recognition) nebo HTR (Handwritten Text Recognition) je technologie, která vytváří digitální přepis tištěných nebo ručně psaných textů. Přepisy naskenovaných dokumentů jsou důležité především pro vyhledávání, protože umožňují použít klíčová slova k vyhledání konkrétního dokumentu nebo k vyhledání konkrétní části v rámci dokumentu. Pro další zlepšení této možnosti vyhledávání lze přepisy překládat pomocí strojového překladu, což uživatelům umožňuje vyhledávat slova v dokumentech v různých jazycích, například pouze pomocí anglického vyhledávacího výrazu.
MR: Jak efektivní je současná moderní technologie OCR?
TV: V posledních letech došlo k pozoruhodnému pokroku v technologii OCR a některé modely OCR fungují působivě dobře, zejména na moderních tištěných textech. Existuje také široká škála stále specializovanějších modelů, které slouží různým potřebám, jako jsou texty z 18. století nebo ručně psané dopisy z druhé světové války.
Navzdory tomuto pokroku však problémy přetrvávají v důsledku faktorů, jako jsou různé styly rukopisu a rozvržení textu, příslušné jazyky nebo přítomnost „hluku“ (zhoršené znaky nebo prokrvení ve dvoustránkových dokumentech, kde se na přední straně objevuje inkoust na zadní straně). Problémy, jako je nesprávné rozpoznání znaků, mohou dramaticky ovlivnit přesnost přepisů OCR, což je problém, který se stává obzvláště zřejmým, když jsou tyto výstupy použity pro účely překladu.
Na základě našich zkušeností ve společnosti CrossLang s vývojem systémů pro vícejazyčné zpracování dokumentů a automatizaci překladů jsme tyto výzvy řešili přímo, abychom zajistili, že výstup OCR bude nejen přesný, ale také připravený k překladu.
MR: Můžete nás seznámit s tím, jak připravujete přepisy OCR k překladu?
TV: Určitě. Příprava přepisů na překlad je vícestupňový proces.
Za prvé, dokument nebo obrázek se nahraje a technologie OCR se použije ke generování digitálního přepisu. To zahrnuje analýzu rozložení stránky a identifikaci znaků v textových oblastech. Tento proces je automatizován a výsledný výstup může obsahovat chyby, jako je nesprávné rozpoznání znaků a chybějící mezery. Navíc výstup OCR obvykle postrádá segmentaci, což představuje řádky tištěných nebo ručně psaných znaků tak, jak jsou zobrazeny na obrázku, bez segmentace do vět. I když to může být v pořádku, pokud koncový uživatel může číst text v původním jazyce, přímé použití výstupu OCR, včetně jeho pravopisných chyb a nedostatečné segmentace, velmi pravděpodobně povede k nepřesným překladům.
K řešení těchto nepřesností používáme různé techniky. Zmíním dva hlavní přístupy. Nejprve se používají techniky segmentace a dehyfenace, které identifikují a oddělují věty v textu a odstraňují pomlčky dělící slova na konci řádků. Za druhé, abychom dále zvýšili přesnost výstupu OCR, používáme nástroje založené na lexikonech a velké jazykové modely (LLM), včetně chatbotů s otevřeným zdrojovým kódem, pro automatickou identifikaci a opravu chyb ve slovech, abychom text co nejvíce sladili s původním obrázkem.
A konečně, s korigovaným výstupem OCR lze MT použít ke generování přesnějších překladů. Tento krok závisí na kvalitě vstupního textu, takže předchozí dva kroky automatické korekce mají zásadní význam pro dosažení užitečných výsledků MT.

MR: Jak hodnotíte, zda byl tento proces opravy úspěšný?
TV: K posouzení přesnosti a kvality korigovaného výstupu OCR a jeho překladu používáme automatizované metriky, jako je míra chyb znaků (CER) a míra úprav překladu (TER). Tyto metriky nám umožňují porovnat korigovaný výstup OCR se základní pravdou (požadovanou transkripcí), což poskytuje cenné poznatky o účinnosti našich metod. V tomto ohledu jsme zaznamenali významná zlepšení, neboť CER i TER po korekci výstupu OCR obecně klesají.
Příležitostně také provádíme manuální kontroly, abychom zajistili celkovou přesnost textu, protože i drobná chyba by mohla změnit význam věty, což by mohlo vést k nedorozuměním nebo nepřesnostem. Mohou se také vyskytnout případy, kdy si někdo (jako historik) přeje zachovat určité prvky textu, včetně možných chyb (jako jsou nesprávně napsaná slova); v takových případech může LLM „přesvědčit“ (obdobně může nahradit slova napsaná ve starší variantě jazyka jejich novějšími verzemi). Tyto scénáře zaměřené na zachování („diplomatický přepis“) vyžadují pečlivou manuální kontrolu.
MR: Jakou radu byste poskytli institucím kulturního dědictví, které chtějí do svého úsilí o zachování kulturního dědictví začlenit pokročilé OCR a překladatelské technologie?
TV: Prvořadou radou, kterou mohu nabídnout, je pozorně sledovat vývoj projektu AI4Culture. V říjnu 2024 nabídneme on-line seminář zaměřený na studenty a odborníky v oblasti kulturního dědictví, v němž praktickým způsobem vysvětlíme uplatňování nařízení o úředních kontrolách a MT na naskenované dokumenty a poskytneme některé další technické podrobnosti o aspektech, jako je automatizovaná oprava výstupu nařízení o úředních kontrolách. Takže zůstaňte naladěni na účty AI4Culture na sociálních médiích.
Zjistit více
V září 2024 projekt AI4Culture spustí platformu, kde budou na internetu zpřístupněny otevřené nástroje, jako jsou výše uvedené nástroje OCR, spolu se související dokumentací a školicími materiály. Sledujte stránku projektu na Europeana Pro pro více podrobností a zůstaňte naladěni na projekt LinkedIn a X účet!
