Marco Rendina: Tosaímid ón tús. An féidir leat sainmhíniú a thabhairt dúinn ar fhotheidil?
Mauro Cettolo: Cinnte. Is píosaí gearra téacs iad fotheidil a bhíonn le feiceáil de ghnáth ag bun scáileáin. Go leor, más rud é nach bhfuil gach duine againn, tá fotheidil feicthe againn uair amháin ar a laghad inár saol, mar shampla, agus muid ag breathnú ar scannán i dteanga nach labhraímid. Leathnaíonn siad inrochtaineacht ábhair chlosamhairc chuig daoine nach bhfuil an teanga ina labhraítear é ar eolas acu nó, ar chúiseanna éagsúla, nach féidir leo éisteacht leis an bhfuaim.
MR: Ar ndóigh, mar sin, tá fotheidil aistriúcháin ar an méid atá á rá?
MC: Go deimhin, tá cineálacha éagsúla fotheidil ann. Chomh maith le fotheidil a chuireann aistriúcháin iarbhír ar a bhfuil á rá ag úsáideoirí i láthair, tá fotheidealú sa teanga chéanna leis an óráid, chomh maith le foirm níos saibhre fotheidealaithe, lena n-áirítear cur síos ar fhuaimeanna, rud a fhágann go bhfuil ábhar níos inrochtana.
MR: Cén cineál fotheidealaithe a bhfuil an tionscadal AI4Culture ag obair air?
Táimid ag díriú ar fhotheidealú trasteangach, tar éis dúinn ár n-aisling an t-ábhar físe a chur ar fáil trí Europeana.eu a chur ar fáil ar fud na dteangacha do lucht féachana atá ag éirí níos éagsúla. Is líne ghníomhach agus dhúshlánach taighde é seo a bhfuil cineálacha éagsúla cur chuige uathoibríoch tagtha chun cinn le blianta beaga anuas. Áirítear orthu sin na cuir chuige ‘cascáide’, mar a thugtar orthu, ina dtéitear i ngleic leis an tasc trí phíblíne de chomhpháirteanna IS ar leithligh le haghaidh deighilt fuaime, tras-scríobh urlabhra, aistriúchán téacs agus ama. Áirítear leis freisin réitigh núíosacha, ina ndéantar an tasc le samhail néarach aonair atá deartha chun céimeanna uile an phróisis a fhorghníomhú.
MR: Cad iad na dúshláin a bhaineann le forbairt cur chuige uathoibríoch maidir le fotheidealú?
MC: Ní aistriúchán amháin atá i bhfotheidealú trasteangach. Is tasc ilghnéitheach é, a dhéantar níos casta mar gheall ar an ngá atá le go leor gnéithe a chothromú ag an am céanna.
Tosaímid ó ionchur fuaime: cruthaíonn an ghné seo amháin, ina haonar, dúshláin i réimse taighde atá an-ghníomhach sa lá atá inniu ann, ar a dtugtar Aistriúchán Urlabhra. Smaoinigh, mar shampla, ar an bhfíric go bhfuil focail i dtéacs scríofa teoranta ag spásanna, agus sa chaint fuaime sroicheann muid mar shruth leanúnach, ina mbíonn sé dúshlánach go minic focail a idirdhealú óna chéile.
Má chuireann muid leis seo ar an bhfíric go dtagann focail labhartha dúinn a shaobhadh ag accents áirithe, fuaimniú, leisce, le cur isteach ar cheol agus ar thorann cúlra, nó leis an mearbhall de bharr forluí cainteoirí iolracha, is féidir linn a shamhlú na deacrachtaí a bhíonn ag meaisín, samhail bogearraí, i dtasc simplí cosúil le hóráid a aistriú.
MR: Anois tuigimid cén fáth ar shainigh tú fotheidealú mar thasc ilghnéitheach! Cad eile a fhágann go bhfuil sé deacair?
MC: Bhuel - is sampla tipiciúil é an cineál aistriúcháin a theastaíonn trí fhotheidealú den aistriúchán srianta a thugaimid air. Caithfidh fotheideal maith riachtanais shonracha a chomhlíonadh, caithfidh sé a bheith ionrach ar a laghad. Chun a bheith soláimhsithe, ní mór d’fhotheidil an t-ualach cognaíoch a theastaíonn ón úsáideoir chun an téacs a léamh agus é ag breathnú ar an ábhar a íoslaghdú. Ar an mbealach seo, is féidir le duine taitneamh a bhaint as an ábhar físe gan seachráin agus, thar aon rud eile, gan iarracht iomarcach mar gheall ar léamh.
MR: Cad iad na srianta nach mór d’fhotheideal a chomhlíonadh chun nach mbeidh sé ionrach?
MC: Is srianta ama, spásúla agus comhréireacha iad srianta. Ó thaobh ama de, ní mór fotheidil a ailíniú go foirfe leis an sruth físe, chun cásanna a sheachaint ina bhfuil duine ag labhairt ach ní féidir linn an méid atá á rá acu a léamh. Ó thaobh na spásúlachta de, ní mór fotheidil a bheith gonta go leor gan an iomarca ama a bheith ag teastáil chun na gluaiseachtaí súl (ar a dtugtar sacáidí) atá riachtanach don léitheoireacht a léamh agus a laghdú. Ar deireadh, tá srianta comhréireacha ann; níor cheart comhábhair na bhfrásaí a dheighilt ó chéile trí fhotheideal a roinnt ina línte. Ní prionsabail ghinearálta iad seo: tá rialacha dochta ann, cé go bhfuil siad beagán difriúil ar fud soláthraithe ábhair.
MR: An féidir le meaisíní na tascanna seo a dhéanamh nár measadh, ach cúpla bliain ó shin, nach féidir iad a bhaint amach?
MC: I bpáirt, tá, a bhuí freisin le tionscadail amhail AI4Culture. Sa lá atá inniu ann, tá samhlacha néaracha gréasánbhunaithe againn atá in ann fotheidil inghlactha a ghiniúint do phéirí teangacha éagsúla. Ciallaíonn ‘inghlactha’ gur cinnte nach bhfuil siad oiriúnach do mhórléiriúcháin Hollywood, ach gur féidir iad a úsáid don mhéid ollmhór sin d’ábhar closamhairc a bheadh dorochtana go deo murach sin mar gheall ar bhacainní teanga agus easpa acmhainní le haghaidh aistriúcháin. Uaireanta déanann ár samhlacha botúin fós, fiú cinn greannmhar, ach táimid ar an mbóthar ceart: cuirimid oiliúint ar mhúnlaí ar theangacha ar leith, agus is leor na torthaí chun brí an méid a dúradh a chur in iúl agus, más féidir, tá siad oiriúnach le haghaidh athbhreithnithe láimhe - bealach níos fearr ná tosú ón tús!
MR: Fuaimeanna iontach - cad iad na dúshláin eile a bheidh romhainn ansin?
MC: Déanfaidh mé tagairt do thriúr.
Baineann an chéad cheann le meastóireacht uathoibríoch ar chórais. I láthair na huaire, tá ár meastóireachtaí ilroinnte ina iliomad méadrachtaí chun samhlacha a mheas in aghaidh gach ceann de na srianta atá i bhfeidhm. Is fadhb chasta fós é na breithiúnais sin a chomhcheangal in aon scór amháin, chomh maith le ceann de na príomhleasanna taighde atá agam go luath amach anseo.
Is é an dara ceann ná clúdach teanga: sa lá atá inniu ann táimid in ann déileáil le sraith an-teoranta péirí teangacha, atá dírithe ar an mBéarla den chuid is mó. Mar sin féin, tá níos mó ná 7,000 teanga ar domhan agus, don chuid is mó díobh, níl aon sonraí, ná uirlisí agus samhlacha ríomhaireachta ann.
Is é an tríú dúshlán ná an comhshaol. Tá AI an lae inniu in ann rudaí iontacha a dhéanamh, ach tá costais fuinnimh na mbunsamhlacha mar a thugtar orthu, atá ag brath ar acmhainní ríomhaireachta ollmhóra, thar a bheith ard. Fós go leor le déanamh, ach tugann tionscadail mar AI4Culture deis dúinn ár gcuid oibre a roinnt leis an domhan agus dul chun cinn a dhéanamh i dteannta a chéile sa réimse.
MR: Go raibh maith agat as do léargas ar an réimse taighde dúshlánach agus spreagúil seo. As seo amach, bainfimid taitneamh as fotheidil le dearcadh go hiomlán difriúil agus i bhfad níos feasaí!
Tuilleadh eolais
Níos déanaí an samhradh seo, déanfar an phíblíne fotheidealaithe uathoibríoch a chuirtear i láthair thuas a chomhtháthú in uirlis fotheidealaithe uathoibríoch foinse oscailte agus soláimhsithe. Cuirfidh sé ar chumas institiúidí oidhreachta cultúrtha fotheidil a chruthú go huathoibríoch in ocht dteanga dá n-ábhair chlosamhairc, rud a chuirfidh ar a gcumas iad a chur in eagar agus a bhailíochtú de láimh.
I mí Mheán Fómhair 2024, seolfaidh AI4Culture ardán freisin ina gcuirfear uirlisí oscailte, amhail an uirlis fotheidealaithe uathoibríoch, ar fáil ar líne, in éineacht le doiciméadacht agus ábhair oiliúna ghaolmhara.
Coinnigh súil ar leathanach an tionscadail ar Europeana Pro le haghaidh tuilleadh sonraí agus coinnigh súil ar chuntas LinkedIn agus X an tionscadail! Go dtí seo, is féidir leis na daoine go léir ar spéis leo an phíblíne uathoibríoch fotheidealaithe a úsáid an cód foinse oscailte atá ar fáil ar GitHub a fhiosrú.
