Marco Rendina: Tosaímid trí OCR a dhíphacáil. Cad é, agus cén fáth a bhfuil sé ábhartha do chaomhnú na hoidhreachta cultúrtha?
Tom Vanallemeersch: Is teicneolaíocht é OCR (Aitheantas Carachtar Optúil) nó HTR (Aitheantas Téacs Scríofa) a tháirgeann tras-scríbhinn dhigiteach de théacsanna clóite nó lámhscríofa. Tá tras-scríbhinní ar dhoiciméid scanta tábhachtach den chuid is mó le haghaidh inchuardaitheachta toisc go gceadaíonn siad eochairfhocail a úsáid chun doiciméad sonrach a chuardach nó chun cuid shonrach laistigh de dhoiciméad a chuardach. Chun an inchuardaitheacht sin a fheabhsú tuilleadh, is féidir tras-scríbhinní a aistriú trí mheaisínaistriúchán a úsáid, rud a chuireann ar chumas úsáideoirí focail a chuardach i ndoiciméid i dteangacha éagsúla trí úsáid a bhaint, mar shampla, as téarma cuardaigh Béarla amháin.
MR: Cé chomh héifeachtach is atá an teicneolaíocht OCR úrscothach atá ann faoi láthair?
Teilifís: Tá dul chun cinn suntasach déanta le blianta beaga anuas i dteicneolaíocht OCR, agus tá ag éirí go han-mhaith le roinnt samhlacha OCR, go háirithe maidir le téacsanna clóite nua-aimseartha. Tá réimse leathan samhlacha ann freisin atá ag éirí níos speisialaithe agus a fhreastalaíonn ar riachtanais éagsúla, amhail téacsanna ón 18ú haois nó litreacha lámhscríofa ón Dara Cogadh Domhanda.
Mar sin féin, d’ainneoin an dul chun cinn sin, tá dúshláin fós ann mar gheall ar thosca amhail stíleanna éagsúla lámhscríbhneoireachta agus leagan amach téacs, na teangacha lena mbaineann, nó láithreacht ‘torann’ (carachtair dhíghrádaithe nó fuiliú i ndoiciméid dhá leathanach, áit a bhfuil dúch an chúil le feiceáil ar an taobh tosaigh). Is féidir le saincheisteanna amhail mí-aithint carachtar tionchar mór a imirt ar chruinneas trascríbhinní OCR, fadhb a thagann chun solais go háirithe nuair a úsáidtear na haschuir sin chun críoch aistriúcháin.
Bunaithe ar ár dtaithí ag CrossLang le córais a fhorbairt le haghaidh próiseáil ilteangach doiciméad agus uathoibriú aistriúcháin, thugamar aghaidh ar na dúshláin sin chun a chinntiú nach bhfuil aschur OCR cruinn amháin, ach go bhfuil sé réidh don aistriúchán freisin.
MR: An féidir leat siúl linn tríd an gcaoi a ndéanann tú tras-scríbhinní OCR réidh le haghaidh aistriúcháin?
Teilifís: Cinnte. Próiseas ilchéime is ea na tras-scríbhinní a dhéanamh réidh don aistriúchán.
Ar an gcéad dul síos, uaslódáiltear an doiciméad nó an íomhá, agus cuirtear teicneolaíocht OCR i bhfeidhm chun tras-scríbhinn dhigiteach a ghiniúint. Is éard atá i gceist leis sin anailís a dhéanamh ar leagan amach an leathanaigh agus carachtair a shainaithint sna réimsí téacs. Agus an próiseas sin á uathoibriú, d’fhéadfadh earráidí amhail mí-aithint carachtar agus spásanna atá in easnamh a bheith san aschur a eascraíonn as. Ina theannta sin, is iondúil nach mbíonn deighilt in aschur OCR, agus línte de charachtair chlóite nó lámhscríofa á gcur i láthair mar a thaispeántar san íomhá iad, gan aon deighilt ina n-abairtí. Cé go bhféadfadh sé sin a bheith breá chomh fada agus is féidir leis an úsáideoir deiridh an téacs a léamh sa bhunteanga, is rídhócha go mbeidh aistriúcháin mhíchruinne mar thoradh ar aschur OCR a úsáid go díreach, lena n-áirítear a earráidí litrithe agus easpa deighilte.
Bainimid úsáid as teicnící éagsúla chun aghaidh a thabhairt ar na míchruinnis seo. Luafaidh mé dhá phríomhchur chuige. Ar an gcéad dul síos, úsáidtear teicnící deighilte agus díhiodráitithe chun abairtí a aithint agus a scaradh laistigh den téacs agus chun fleiscíní scoilte focal a bhaint ag deireadh na línte. Ar an dara dul síos, chun cruinneas aschur OCR a fheabhsú tuilleadh, bainimid úsáid as uirlisí atá bunaithe ar lexicon agus Múnlaí Teanga Móra (LLManna), lena n-áirítear botaí comhrá foinse oscailte, chun earráidí i bhfocail a shainaithint agus a cheartú go huathoibríoch chun an téacs a ailíniú chomh dlúth agus is féidir leis an íomhá bhunaidh.
Ar deireadh, leis an aschur ceartaithe OCR, is féidir MT a chur i bhfeidhm chun aistriúcháin atá níos cruinne a ghiniúint. Braitheann an chéim seo ar cháilíocht an téacs ionchuir, rud a fhágann go bhfuil an dá chéim cheartúcháin uathoibríocha roimhe seo ríthábhachtach chun torthaí úsáideacha TM a bhaint amach.

MR: Conas a mheasann tú ar éirigh leis an bpróiseas ceartúcháin seo?
Teilifís: Bainimid úsáid as méadrachtaí uathoibrithe amhail Ráta Earráide Carachtair (CER) agus Ráta Eagarthóireachta Aistriúcháin (TER) chun cruinneas agus cáilíocht aschur ceartaithe OCR agus a aistriúchán a mheas. Ligeann na méadrachtaí seo dúinn an t-aschur ceartaithe OCR a chur i gcomparáid leis an bhfírinne talún (an tras-scríobh atá ag teastáil), ag soláthar léargas luachmhar ar éifeachtúlacht ár modhanna. Thugamar feabhsuithe suntasacha faoi deara ina leith sin, toisc go laghdaíonn CER agus TER araon go ginearálta tar éis aschur OCR a cheartú.
Déanaimid cigireachtaí láimhe ó am go chéile freisin chun cruinneas foriomlán téacs a chinntiú, mar d'fhéadfadh fiú mionearráid brí na habairte a athrú, rud a d'fhéadfadh míthuiscintí nó míchruinnis a bheith mar thoradh air. D'fhéadfadh go mbeadh cásanna ann freisin inar mian le duine (cosúil le staraí) gnéithe áirithe den téacs a chaomhnú, lena n-áirítear earráidí féideartha (mar shampla focail a speilt go mícheart); i gcásanna den sórt sin, d’fhéadfadh LLM a bheith ‘rócheartaithe’ (mar an gcéanna, d’fhéadfadh sé a leaganacha níos nuaí a chur in ionad focail atá scríofa i leagan níos sine de theanga). Ní mór cigireacht chúramach láimhe a dhéanamh ar chásanna den sórt sin atá dírithe ar chaomhnú (‘tras-scríobh taidhleoireachta’).
MR: Cén chomhairle a thabharfá d’institiúidí oidhreachta cultúrtha ar mian leo ardteicneolaíochtaí OCR agus aistriúcháin a chomhtháthú ina n-iarrachtaí caomhnaithe?
Teilifís: Is í an chomhairle is tábhachtaí is féidir liom a chur ar fáil ná súil ghéar a choinneáil ar fhorbairtí thionscadal AI4Culture. I mí Dheireadh Fómhair 2024, cuirfimid ceardlann ar líne ar fáil a bheidh dírithe ar mhic léinn agus ar shaineolaithe na hoidhreachta cultúrtha, ina mínímid cur i bhfeidhm OCR agus MT maidir le doiciméid scanta ar bhealach praiticiúil agus ina soláthróimid roinnt sonraí níos teicniúla maidir le gnéithe amhail ceartú uathoibrithe ar aschur OCR. Mar sin fan tiúnta ar chuntais meán sóisialta AI4Culture.
Tuilleadh eolais
I mí Mheán Fómhair 2024, seolfaidh tionscadal AI4Culture ardán ina gcuirfear uirlisí oscailte, amhail na huirlisí OCR a chuirtear i láthair thuas, ar fáil ar líne, in éineacht le doiciméadacht agus ábhair oiliúna ghaolmhara. Coinnigh súil ar leathanach an tionscadail ar Europeana Pro le haghaidh tuilleadh sonraí agus coinnigh súil ar chuntas LinkedIn agus X an tionscadail!
