Marco Rendina: Nibdew billi nneħħu l-OCR. X’inhu, u għaliex huwa rilevanti għall-preservazzjoni tal-wirt kulturali?
Tom Vanallemeersch: OCR (Rikonoxximent Ottiku tal-Karattru) jew HTR (Rikonoxximent bil-Miktub tat-Test) hija teknoloġija li tipproduċi traskrizzjoni diġitali ta’ testi stampati jew miktubin bl-idejn. It-traskrizzjonijiet ta’ dokumenti skennjati huma prinċipalment importanti għat-tiftix peress li jippermettu li jintużaw kliem ewlieni biex wieħed ifittex dokument speċifiku jew biex ifittex parti speċifika f’dokument. Biex tkompli tissaħħaħ din il-possibbiltà ta’ tiftix, it-traskrizzjonijiet jistgħu jiġu tradotti bl-użu ta’ traduzzjoni awtomatika, li tippermetti lill-utenti jfittxu kliem f’dokumenti f’lingwi differenti billi jużaw, pereżempju, terminu ta’ tiftix bl-Ingliż biss.
MR: Kemm hija effettiva t-teknoloġija attwali tal-OCR tal-ogħla livell ta’ żvilupp tekniku?
TV: Dawn l-aħħar snin raw progress notevoli fit-teknoloġija tal-OCR, u xi mudelli tal-OCR jaħdmu tajjeb b’mod impressjonanti, speċjalment fuq testi stampati moderni. Hemm ukoll firxa wiesgħa ta’ mudelli dejjem aktar speċjalizzati li jaqdu ħtiġijiet differenti, bħal testi tas-seklu 18 jew ittri WWII miktuba bl-idejn.
Madankollu, minkejja dawn l-avvanzi, għad hemm sfidi minħabba fatturi bħal stili ta’ kitba bl-idejn u formati tat-test differenti, il-lingwi involuti, jew il-preżenza ta’ “storbju” (karattri degradati jew bleed-through f’dokumenti b’paġna doppja, fejn il-linka tan-naħa ta’ wara tidher fuq in-naħa ta’ quddiem). Kwistjonijiet bħar-rikonoxximent ħażin tal-karattri jista’ jkollhom impatt drammatiku fuq il-preċiżjoni tat-traskrizzjonijiet tal-OCR, problema li ssir partikolarment evidenti meta dawn l-outputs jintużaw għal skopijiet ta’ traduzzjoni.
Abbażi tal-esperjenza tagħna f’CrossLang bl-iżvilupp ta’ sistemi għall-ipproċessar multilingwi tad-dokumenti u l-awtomatizzazzjoni tat-traduzzjoni, indirizzajna dawn l-isfidi direttament biex niżguraw li l-output tal-OCR ma jkunx biss preċiż, iżda wkoll lest għat-traduzzjoni.
MR: Tista’ timxi magħna permezz ta’ kif tagħmel it-traskrizzjonijiet tal-OCR lesti għat-traduzzjoni?
TV: Ċertament. Li t-traskrizzjonijiet ikunu lesti għat-traduzzjoni huwa proċess b’diversi stadji.
L-ewwel nett, id-dokument jew l-immaġni jittellgħu, u tiġi applikata t-teknoloġija tal-OCR biex tiġi ġġenerata traskrizzjoni diġitali. Dan jinvolvi l-analiżi tat-tqassim tal-paġna u l-identifikazzjoni tal-karattri fl-oqsma tat-test. Peress li dan il-proċess huwa awtomatizzat, l-output li jirriżulta jista’ jkun fih żbalji bħal rikonoxximent ħażin tal-karattri u spazji neqsin. Barra minn hekk, l-output tal-OCR tipikament ma jkollux segmentazzjoni, u jippreżenta linji ta’ karattri stampati jew miktuba bl-idejn kif jintwerew fl-immaġni, mingħajr ebda segmentazzjoni f’sentenzi. Filwaqt li dan jista’ jkun tajjeb sakemm l-utent finali jkun jista’ jaqra t-test bil-lingwa oriġinali, l-użu dirett tal-output tal-OCR, inklużi l-iżbalji ortografiċi tiegħu u n-nuqqas ta’ segmentazzjoni, x’aktarx li jirriżulta fi traduzzjonijiet mhux preċiżi.
Aħna nużaw diversi tekniki biex nindirizzaw dawn l-ineżattezzi. Se nsemmi żewġ approċċi ewlenin. L-ewwelnett, jintużaw tekniki ta 'segmentazzjoni u dehyphenation biex jidentifikaw u jisseparaw sentenzi fit-test u jneħħu s-singijiet li jaqsmu l-kliem fit-tarf tal-linji. It-tieni, biex inkomplu ntejbu l-preċiżjoni tal-output tal-OCR, nużaw għodod ibbażati fuq il-lessiku u Mudelli ta’ Lingwa Kbira (LLMs), inklużi chatbots b’sors miftuħ, biex awtomatikament nidentifikaw u nikkoreġu l-iżbalji fi kliem biex nallinjaw it-test kemm jista’ jkun mill-qrib mal-immaġni oriġinali.
Fl-aħħar nett, bl-output tal-OCR ikkoreġut, MT tista’ tiġi applikata biex tiġġenera traduzzjonijiet li huma aktar preċiżi. Dan il-pass jiddependi fuq il-kwalità tat-test tal-input, li jagħmel iż-żewġ passi ta’ korrezzjoni awtomatika preċedenti kruċjali għall-kisba ta’ riżultati utli ta’ MT.

MR: Kif tevalwa jekk dan il-proċess ta’ korrezzjoni kienx ta’ suċċess?
TV: Aħna nużaw metriċi awtomatizzati bħar-Rata tal-Iżball tal-Karattru (CER) u r-Rata tal-Editjar tat-Traduzzjoni (TER) biex nivvalutaw il-preċiżjoni u l-kwalità tal-output tal-OCR ikkoreġut u t-traduzzjoni tiegħu. Dawn il-metriċi jippermettulna nqabblu l-output tal-OCR ikkoreġut mal-verità bażika (it-traskrizzjoni mixtieqa), u nipprovdu għarfien siewi dwar l-effikaċja tal-metodi tagħna. Osservajna titjib sinifikanti f’dan ir-rigward, peress li kemm is-CER kif ukoll it-TER ġeneralment jonqsu wara l-korrezzjoni tal-output tal-OCR.
Kultant inwettqu wkoll spezzjonijiet manwali biex niżguraw il-preċiżjoni ġenerali ta’ test, peress li anke żball żgħir jista’ jbiddel it-tifsira tas-sentenza, li possibbilment jirriżulta f’nuqqas ta’ fehim jew ineżattezzi. Jista’ jkun hemm ukoll każijiet fejn xi ħadd (bħal storiku) jixtieq jippreserva ċerti elementi tat-test, inklużi żbalji potenzjali (bħal kliem miktub ħażin); f’każijiet bħal dawn, LLM jista’ “jikkoreġi żżejjed” (bl-istess mod, jista’ jissostitwixxi kliem miktub f’varjant aktar antik ta’ lingwa bil-verżjonijiet aktar ġodda tagħhom). Tali xenarji orjentati lejn il-preservazzjoni (“traskrizzjoni diplomatika”) jeħtieġu spezzjoni manwali bir-reqqa.
MR: X’parir tagħti lill-istituzzjonijiet tal-wirt kulturali li jixtiequ jintegraw l-OCR avvanzat u t-teknoloġiji tat-traduzzjoni fl-isforzi ta’ preservazzjoni tagħhom?
TV: Il-parir ewlieni li nista’ noffri huwa li nsegwi mill-qrib l-iżviluppi tal-proġett AI4Culture. F’Ottubru 2024, se noffru workshop online mmirat lejn studenti u esperti tal-wirt kulturali, li fih nispjegaw l-applikazzjoni tal-OCR u MT għal dokumenti skennjati b’mod prattiku u nipprovdu xi dettalji aktar tekniċi dwar aspetti bħall-korrezzjoni awtomatizzata tal-output tal-OCR. Allura ibqa 'sintonizzat fuq il-kontijiet tal-midja soċjali AI4Culture.
Skopri aktar
F’Settembru 2024, il-proġett AI4Culture se jniedi pjattaforma fejn għodod miftuħa, bħall-għodod tal-OCR ippreżentati hawn fuq, se jkunu disponibbli online, flimkien ma’ dokumentazzjoni u materjali ta’ taħriġ relatati. Żomm għajnejk fuq il-paġna tal-proġett fuq Europeana Pro għal aktar dettalji u ibqa’ aġġornat dwar il-proġett LinkedIn u l-kont X!
