Marco Rendina: Sāksim ar OCR izsaiņošanu. Kas tas ir un kāpēc tas ir būtisks kultūras mantojuma saglabāšanai?
Tom Vanallemeersch: OCR (optiskā rakstzīmju atpazīšana) vai HTR (rokraksta teksta atpazīšana) ir tehnoloģija, kas rada drukātu vai ar roku rakstītu tekstu digitālu transkripciju. Skenēto dokumentu transkripcijas galvenokārt ir svarīgas meklēšanas iespējām, jo tās ļauj izmantot atslēgvārdus, lai meklētu konkrētu dokumentu vai meklētu konkrētu dokumenta daļu. Lai vēl vairāk uzlabotu šo meklējamību, transkripcijas var tulkot, izmantojot mašīntulkošanu, kas ļauj lietotājiem meklēt vārdus dokumentos dažādās valodās, izmantojot, piemēram, tikai angļu valodas meklēšanas terminu.
MR: Cik efektīva ir pašreizējā modernā OCR tehnoloģija?
TV: Pēdējos gados OCR tehnoloģijā ir panākts ievērojams progress, un dažiem OCR modeļiem ir iespaidīgi labi rezultāti, jo īpaši attiecībā uz moderniem drukātiem tekstiem. Pastāv arī plašs arvien specializētāku modeļu klāsts, kas apmierina dažādas vajadzības, piemēram, 18. gadsimta teksti vai ar roku rakstītas Otrā pasaules kara vēstules.
Tomēr, neraugoties uz šiem sasniegumiem, problēmas joprojām pastāv tādu faktoru dēļ kā dažādi rokraksta stili un teksta izkārtojumi, iesaistītās valodas vai “troksnis” (degradētas rakstzīmes vai caurspīdīgs teksts dokumentos ar divām lappusēm, kur aizmugurējā tinte parādās priekšpusē). Tādas problēmas kā rakstzīmju nepareiza atzīšana var būtiski ietekmēt OCR transkripciju precizitāti, un šī problēma kļūst īpaši acīmredzama, ja šos rezultātus izmanto tulkošanas vajadzībām.
Balstoties uz CrossLang pieredzi daudzvalodu dokumentu apstrādes un tulkošanas automatizācijas sistēmu izstrādē, mēs pievērsāmies šīm problēmām, lai nodrošinātu, ka OKR iznākums ir ne tikai precīzs, bet arī gatavs tulkošanai.
MR: Vai varat mums pastāstīt, kā sagatavot OCR transkripcijas tulkošanai?
TV: Protams. Transkripciju sagatavošana tulkošanai ir daudzpakāpju process.
Pirmkārt, dokuments vai attēls tiek augšupielādēts, un tiek izmantota OCR tehnoloģija, lai ģenerētu digitālu transkripciju. Tas ietver lapas izkārtojuma analīzi un rakstzīmju identificēšanu teksta apgabalos. Tā kā šis process ir automatizēts, iegūtajā izvadē var būt kļūdas, piemēram, rakstzīmju nepareiza atpazīšana un trūkstošas atstarpes. Turklāt OCR izvadei parasti trūkst segmentācijas, attēlojot drukātu vai ar roku rakstītu rakstzīmju līnijas, kā tās tiek parādītas attēlā, bez segmentācijas teikumos. Lai gan tas varētu būt labi, ja galalietotājs var lasīt tekstu oriģinālvalodā, ļoti iespējams, ka, tieši izmantojot OKR izvaddatus, tostarp pareizrakstības kļūdas un segmentācijas trūkumu, tiks iegūti neprecīzi tulkojumi.
Mēs izmantojam dažādas metodes, lai novērstu šīs neprecizitātes. Es minēšu divas galvenās pieejas. Pirmkārt, tiek izmantotas segmentācijas un dehyphenation metodes, lai identificētu un atdalītu teikumus tekstā un noņemtu vārdu sadalīšanas defises rindiņu beigās. Otrkārt, lai vēl vairāk uzlabotu OCR rezultātu precizitāti, mēs izmantojam uz leksikonu balstītus rīkus un lielo valodu modeļus (LLM), tostarp atvērtā pirmkoda sarunbotus, lai automātiski identificētu un labotu kļūdas vārdos, lai tekstu pēc iespējas tuvinātu sākotnējam attēlam.
Visbeidzot, ar koriģēto OCR izvadi MT var piemērot, lai ģenerētu precīzākus tulkojumus. Šis solis ir atkarīgs no ievades teksta kvalitātes, tāpēc divi iepriekšējie automātiskās korekcijas soļi ir būtiski, lai sasniegtu lietderīgus MT rezultātus.

MR: Kā jūs vērtējat, vai šis korekcijas process ir bijis veiksmīgs?
TV: Mēs izmantojam automatizētus rādītājus, piemēram, rakstzīmju kļūdu īpatsvaru (CER) un tulkošanas rediģēšanas īpatsvaru (TER), lai novērtētu koriģētās OCR izvades un tās tulkošanas precizitāti un kvalitāti. Šie rādītāji ļauj mums salīdzināt koriģēto OCR iznākumu ar zemes patiesību (vēlamo transkripciju), sniedzot vērtīgu ieskatu mūsu metožu efektivitātē. Šajā ziņā esam novērojuši būtiskus uzlabojumus, jo pēc OKR izlaides korekcijas gan SES, gan TEP kopumā samazinās.
Reizēm mēs veicam arī manuālas pārbaudes, lai nodrošinātu teksta vispārējo precizitāti, jo pat neliela kļūda varētu mainīt teikuma nozīmi, iespējams, radot pārpratumus vai neprecizitātes. Var būt arī gadījumi, kad kāds (piemēram, vēsturnieks) vēlas saglabāt dažus teksta elementus, tostarp iespējamas kļūdas (piemēram, nepareizi uzrakstītus vārdus); šādos gadījumos LLM var būt “pārmērīgi pareiza” (tāpat tā var aizstāt vārdus, kas rakstīti vecākā valodas variantā, ar to jaunākajām versijām). Šādiem uz saglabāšanu vērstiem scenārijiem (“diplomātiskā transkripcija”) ir nepieciešama rūpīga manuāla pārbaude.
MR: Kādus padomus jūs sniegtu kultūras mantojuma iestādēm, kuras savos saglabāšanas centienos vēlas integrēt progresīvas OKR un tulkošanas tehnoloģijas?
TV: Svarīgākais padoms, ko varu piedāvāt, ir cieši sekot līdzi AI4Culture projekta attīstībai. 2024. gada oktobrī mēs piedāvāsim kultūras mantojuma studentiem un ekspertiem paredzētu tiešsaistes darbsemināru, kurā mēs izskaidrosim OKR un MT piemērošanu dokumentu skenēšanai praktiskā veidā un sniegsim sīkāku tehnisko informāciju par tādiem aspektiem kā OKR rezultātu automatizēta labošana. Tāpēc sekojiet līdzi AI4Culture sociālo mediju kontiem.
Uzzināt vairāk
2024. gada septembrī AI4Culture projekts izveidos platformu, kurā tiešsaistē būs pieejami atvērtie rīki, piemēram, iepriekš izklāstītie OCR rīki, kā arī saistītā dokumentācija un mācību materiāli. Sekojiet līdzi projekta lapai Europeana Pro, lai uzzinātu vairāk, un sekojiet līdzi projekta LinkedIn un X kontam!
