Marco Rendina: Tosaímid ó na buneilimintí. Cad is saibhriú séimeantach ann?
Eirini Kaldeli: Is é saibhriú séimeantach an próiseas chun séimeantaic nua a chur le sonraí neamhstruchtúrtha, mar shampla saorthéacs, ionas gur féidir le meaisíní ciall a bhaint as agus naisc a thógáil leis. I gcás meiteashonraí téacsúla a chuireann síos ar mhíreanna oidhreachta cultúrtha, is féidir anailís a dhéanamh orthu agus iad a mhéadú le téarmaí rialaithe ó thacair sonraí Nasctha Oscailte nó ó fhoclóiríní, amhail Wikidata nó Getty Art & Thesaurus Ailtireachta (AAT). Tagraítear do na téarmaí sin go coitianta mar anótálacha agus is féidir leo coincheapa agus tréithe a léiriú (amhail ‘Costas’ nó ‘Athbheochan’), daoine, suíomhanna, eagraíochtaí nó tréimhsí croineolaíocha. Mar shampla, is féidir na teaghráin ‘Leonardo da Vinci’ agus ‘da Vinci, Leonardo’ a nascadh leis an mír Wikidata lena léirítear polamath Athbheochan na hIodáile.
MR: Cén fáth a bhfuil sé tábhachtach meiteashonraí a shaibhriú le téarmaí ó thacair sonraí nó foclóirí Nasctha Oscailte?
EK: Cuireann saibhriú séimeantach brí agus comhthéacs le bailiúcháin dhigiteacha agus fágann sé gur fusa iad a aimsiú. I bhfianaise a thábhachtaí atá sé, ba phríomhábhar imní agus príomhfhócas iarrachtaí Thionscnamh Europeana é chomh maith le comhbhailitheoirí aonair agus soláthraithe sonraí.
Ar an gcéad dul síos, déanann sonraí nasctha meiteashonraí téacsúla gan débhrí. Mar shampla, d’fhéadfadh an teaghrán ‘Leonardo da Vinci’ tagairt a dhéanamh freisin, ag brath ar an gcomhthéacs, d’aerfort na hIodáile nó do chathlong a bhfuil an t-ainm céanna uirthi. Léirítear gach ceann de na coincheapa sin trí URI tiomnaithe (Aitheantóir Tagartha Uathúil) ó Wikidata, agus, dá bhrí sin, tríd an téacs a nascadh leis an URI ceart, is léir cad dá dtagraíonn an téacs.
Ar an dara dul síos, cuireann sonraí nasctha ar ár gcumas faisnéis bhreise a aisghabháil faoi eintiteas áirithe, naisc a thógáil idir acmhainní éagsúla agus iad a chur i gcomhthéacs. Mar shampla, cuireann sé ar ár gcumas míreanna atá clibeáilte leis an téarma ‘fáinne’ a nascadh leis an gcoincheap níos leithne ‘seodra’ agus iad a idirnascadh le míreanna atá saibhrithe leis an téarma ‘bracelet’, ar sampla é freisin de ‘jewellery’.
Ar deireadh, is iondúil go dtagann aistriúcháin le sonraí nasctha, rud a fheabhsaíonn na cumais le haghaidh cuardach ilteangach. Cuireann sé sin ar a gcumas dóibh siúd a úsáideann stórtha ar líne bailiúcháin a bhrabhsáil agus a chuardach ag an ‘gciseal séimeantach’ mar a thugtar air: beidh duine a chuardaíonn ‘κόσμημα’ (an focal Gréigise le haghaidh ‘seodra’) in ann teacht ar earraí ar a dtugtar fáinní chomh maith le bráisléid.
MR: Éilíonn Alexandros, meiteashonraí saibhrithe, iarracht agus acmhainní a bhíonn in easnamh go minic ag institiúidí oidhreachta cultúrtha. Conas is féidir le teicneolaíochtaí digiteacha cabhrú chun aghaidh a thabhairt ar an dúshlán sin?
Alexandros Chortaras: Is féidir le hinstitiúidí oidhreachta cultúrtha teicneolaíochtaí úrscothacha a úsáid chun an próiseas saibhrithe meiteashonraí de láimh, a thógann go leor ama agus a bhíonn neamhghnách go minic a uathoibriú. Is féidir uirlisí próiseála teanga nádúrtha a úsáid chun anailís a dhéanamh ar mheiteashonraí téacsúla agus chun eintitis ainmnithe, amhail daoine nó ainmneacha suímh, a luaitear i dtéacs neamhstruchtúrtha a bhrath agus a aicmiú. Úsáidtear cuir chuige mheaisínfhoghlama go forleathan chun dídhébhríocht a dhéanamh ar eintitis ainmnithe, atá freagrach as cinneadh a dhéanamh, mar shampla, an dtagraíonn an tagairt do ‘Leonardo da Vinci’ sa téacs do pholamath na hIodáile nó don chatha. Ag brath ar shaintréithe an téacs, mar shampla a fhad agus a theanga, an stór focal ar mian linn é a nascadh leis, agus an cineál eintiteas is mian linn a bhrath, caithfidh duine na huirlisí is oiriúnaí don tasc sonrach a chomhcheangal. Mar shampla, ón taithí a bhí againn ar thionscadail roimhe seo amhail CRAFTED, i gcás cúraimí áirithe a bhfuil comhthéacs srianta dea-shainithe acu, d’fhéadfadh sé go mbeadh fiú cur chuige simplí maidir le haibiú agus meaitseáil teaghrán níos iomchuí ná algartaim chasta ML-bhunaithe.
MR: Ach an féidir liom muinín iomlán a bheith agam as torthaí algartam uathoibríoch? Cad a tharlaíonn má dhéanann sé botúin?
AC: Go deimhin, déanann algartaim uathoibríocha a dhéanann anailís ar shaorthéacs le haghaidh aitheantas eintitis ainmnithe agus dídhébhríocht botúin. Braitheann an cruinneas ar an tasc atá idir lámha agus ar an algartam a chuirtear i bhfeidhm. Mar shampla, tá easpa comhthéacs ag tuairiscí gearra téacsúla atá coitianta i meiteashonraí agus dá bhrí sin d’fhéadfadh meaitseanna míchearta a bheith mar thoradh ar algartaim ML atá oilte ar ailt Vicipéide.
Ina theannta sin, fiú má tá na naisc a bhraitear go huathoibríoch ceart, d’fhéadfaí a mheas go bhfuil siad neamh-inmhianaithe i gcomhthéacs áirithe. Mar shampla, d’fhéadfadh sé go mbeadh sé tábhachtach do bhailiúchán faisin taifid mheiteashonraí a nascadh le téarmaí lena léirítear dathanna, ach d’fhéadfadh sé nach mbeadh sé inmhianaithe cur síos a dhéanamh ar lámhscríbhinn ina luaitear dath áirithe. Dá bhrí sin, tá iniúchadh agus bailíochtú daonna ar anótálacha uathoibríocha fíor-riachtanach. Mar sin féin, ós rud é go mbíonn na mílte anótáil uathoibríoch ann go minic, is féidir le bailíochtú láimhe a bheith ina phróiseas an-dian ar acmhainní. Ar leibhéal praiticiúil, ba cheart do dhaoine athbhreithniú a dhéanamh ar shampla roghnaithe de na nótaí mínithe agus, ag brath ar na torthaí agus ar an gcuspóir, cinneadh a dhéanamh maidir le critéir scagtha iomchuí.
MR: Ceist dheireanach do Eirini. Tá go leor halgartaim agus leabharlanna amuigh ansin, ach is cosúil go bhfuil gá le heolas teicniúil suntasach chun iad a chur ar bun. Conas a chabhraíonn AI4Culture le hinstitiúidí oidhreachta cultúrtha leas a bhaint as na teicneolaíochtaí sin?
ΕΚ: I gcomhthéacs thionscadal AI4Culture, táimid ag obair ar ardán, ar a dtugtar SAGE, arna fhorbairt ag Ollscoil Theicniúil Náisiúnta na hAithne. Éascaíonn SAGE saibhriú séimeantach mheiteashonraí na hoidhreachta cultúrtha trí shraith anótálaithe seanbhunaithe (teimpléid saibhrithe) a thairiscint atá cumraithe chun freastal ar riachtanais na hearnála. Tacaíonn an t-ardán le sreabhadh oibre iomlán an tsaibhrithe, ó allmhairiú sonraí agus táirgeadh uathoibríoch nótaí séimeantacha go bailíochtú daonna agus foilsiú sonraí san fhormáid a bhfuil Europeana ag súil léi. Baineadh úsáid rathúil as an uirlis chun meiteashonraí na hoidhreachta cultúrtha a shaibhriú i roinnt feidhmchlár (lena n-áirítear trí thionscadail CRAFTED agus Europeana XX). I gcomhthéacs AI4Culture, leathnaíodh é chun castacht theicniúil na n-algartam saibhrithe shéimeantaigh uathoibríoch a cheilt agus chun tacú le hidir-inoibritheacht rianúil leis an spás coiteann sonraí Eorpach don oidhreacht chultúrtha. Chuige sin, tacaíonn an t-ardán le formáidí atá ábhartha do mheiteashonraí na hoidhreachta cultúrtha, amhail EDM (Samhail Sonraí Europeana) agus éascaíonn sé allmhairiú díreach meiteashonraí ó fhoinsí a bhaineann leis an oidhreacht chultúrtha amhail Europeana.eu nó an uirlis MINT a úsáideann roinnt comhbhailitheoirí Europeana.
Go dtí seo, is féidir le daoine leasmhara triail a bhaint as SAGE anseo. Tá an cód foinseach ar fáil ar GitHub (tosach tosaigh , cúl). Is féidir leat foghlaim conas SAGE a úsáid tar éis sraith ranganna teagaisc físe agus na treoracha Wiki a léamh
Tuilleadh eolais
I mí Mheán Fómhair 2024, seolfaidh tionscadal AI4Culture ardán ina gcuirfear uirlisí oscailte, amhail an uirlis SAGE le haghaidh saibhriú séimeantach a chuirtear i láthair thuas, ar fáil ar líne, in éineacht le doiciméadacht agus ábhair oiliúna ghaolmhara. Coinnigh súil ar leathanach an tionscadail ar Europeana Pro le haghaidh tuilleadh sonraí agus coinnigh súil ar chuntas LinkedIn agus X an tionscadail!
