Samhail aicmithe illipéid
Mar a scrúdaíodh i bpoist Pro news roimhe seo, tá píolótach aicmithe íomhánna á reáchtáil againn ag Fondúireacht Europeana, agus oiliúint á cur againn ar shamhail aicmithe íomhá lipéid aonair chun ár mbailiúcháin a shaibhriú. Bhí an tsamhail a d’fhorbraíomar in ann íomhánna a aicmiú i gcatagóirí ónár spriocfhoclóir, ach níor sainaithníodh ach gné amháin (nó ‘lipéad’) de gach íomhá. Mar sin, thosaíomar ag obair ar oiliúint a chur ar an tsamhail chun íomhá a aicmiú le níos mó ná lipéad amháin - mar sin d’fhéadfaí coincheapa amhail ‘grianghraf’ agus ‘dealbhóireacht’ a shainaithint san íomhá chéanna.
Chun oiliúint a chur ar an tsamhail aicmithe íomhá illipéid seo, bhí orainn tacar sonraí oiliúna a bhailiú ina raibh íomhánna le lipéid iolracha ina meiteashonraí. Bhaineamar úsáid as API Cuardach Europeana trí chuardach a dhéanamh ar rudaí atá innéacsaithe le níos mó ná coincheap amháin ónár stór focal, rud a d’fhág go raibh 9,000 réad san iomlán ann. Mar is amhlaidh lenár n-iarracht aicmithe lipéid aonair roimhe seo, ní dhearnamar athbhreithniú ar an tacar sonraí seo, mar sin bhí cáilíocht na lipéad ag brath ar cháilíocht na saibhrithe roimhe seo.
I gcás aicmiú illipéid, bhí níos mó ná lipéad amháin do gach íomhá sna meiteashonraí cearta (nó san fhírinne talún). Chuireamar oiliúint ar líonra neural convolutional chun na híomhánna a aicmiú agus ansin d'úsáideamar an tsamhail mar thoradh air sin ar rudaí a fuarthas ón API Cuardaigh. Is féidir leat cuid de na samplaí a fheiceáil lena dtuartha, scóir muiníne agus léarscáileanna inléiritheachta thíos.

Ár gcuid foghlama
Ónár dturgnaimh, thángamar ar an gconclúid go bhfuil an tsamhail in ann iliomad lipéad ábhartha a shainaithint i gceart le haghaidh na n-íomhánna a thugtar. Tá an cur chuige illipéid níos cabhraí ná lipéid aonair a úsáid ós rud é gur féidir leis roinnt lipéad a chur i bhfeidhm ar gach íomhá le muinín ard.
In ainneoin na dtorthaí suimiúla, tá feidhmíocht an tsamhail mar thoradh air i bhfad ó foirfe, agus is féidir linn é seo a chur i leith roinnt fachtóirí. Is é an rud is tábhachtaí ná cáilíocht réasúnta íseal an tacair sonraí a bailíodh. Fuaireamar amach nach bhfuil meiteashonraí cearta ag go leor de na híomhánna a aisghabhadh.
Ina theannta sin, sholáthair Músaem Digiteach na hIorua an chuid is mó de na sonraí a úsáideadh le haghaidh oiliúna. Ciallaíonn sé sin nach léiríonn na sonraí oiliúna dáileadh iomlán na sonraí ag Europeana, rud a fhágann go bhfuil an tsamhail claonta i leith na sonraí ar cuireadh oiliúint uirthi. Mar thoradh ar chlaontacht na sonraí oiliúna beidh easpa ginearálaithe ann don chuid eile d’íomhánna ó Europeana. I dtéarmaí simplí, feidhmeoidh an tsamhail go maith ar íomhánna cosúil leis na cinn atá sa tacar sonraí oiliúna, ach teipfidh air má tá na híomhánna ró-difriúil.
Go ginearálta, tá ár gcuid sonraí oiliúna maith go leor don mhúnla roinnt patrúin bhunúsacha a fhoghlaim. D’éirigh go maith leis an tsamhail in ainneoin go raibh sé dúshlánach sonraí a úsáid le lipéid mhíchearta. Mar sin féin, níl cáilíocht na saibhrithe roimhe seo oiriúnach chun iad a úsáid mar shonraí oiliúna chun samhail a thógáil chun ár mbailiúcháin a shaibhriú. Réiteach air seo is ea tacar sonraí oiliúna ar chaighdeán níos airde a chruthú, chun a chinntiú go gcuirtear na lipéid chearta i láthair ár múnla.
An obair a dhéanfar amach anseo: sluafhoinsiú
Tar éis oiliúint agus meastóireacht a dhéanamh ar an tsamhail aicmithe illipéid, thángamar ar an gconclúid go bhfuil sé níos oiriúnaí lipéid iolracha a shannadh do na híomhánna ónár mbailiúchán ná iad a shaibhriú le lipéad amháin.
Táimid ag smaoineamh ar an bhfoclóir a leathnú trí théarmaí eile a bhaineann leis an oidhreacht chultúrtha a chur san áireamh. Níos tábhachtaí fós, tá sé beartaithe againn an tacar sonraí oiliúna a athbhreithniú agus a leathnú, agus é mar aidhm againn claontachtaí agus earráidí féideartha a aithint agus a cheartú. Ba mhaith linn a chinntiú go gcuirtear na lipéid chearta i láthair ár múnla, a bhfuiltear ag súil go bhfeidhmeoidh sé i bhfad níos fearr ná nuair a chuirtear oiliúint air le lipéid 'noisy'. Tá feachtas sluafhoinsithe seolta againn chun tacar sonraí anótáilte ardchaighdeáin a thógáil le Zooniverse, agus cuirimid fáilte roimh aighneachtaí ónár bpobal.
Is féidir leat ár gcuid oibre a leanúint sa stór Github seo. Tugaimid cuireadh duit triail a bhaint as an leabhar nótaí Colab seo freisin, áit ar féidir leat do cheisteanna féin a chur ar API Cuardaigh Europeana agus an tsamhail aicmithe illipéid a chur i bhfeidhm. Ná bíodh drogall ort teagmháil a dhéanamh linn ag [email protected] má tá aon cheist nó smaoineamh agat!
