Mudell ta’ klassifikazzjoni b’diversi tikketti
Kif ġie esplorat f’postijiet tal-aħbarijiet Pro preċedenti, fil-Fondazzjoni Europeana konna qed inħaddmu proġett pilota ta’ klassifikazzjoni tal-immaġnijiet, li jħarreġ mudell ta’ klassifikazzjoni tal-immaġnijiet b’tikketta unika biex jarrikkixxi l-kollezzjonijiet tagħna. Il-mudell li żviluppajna kien kapaċi jikklassifika l-immaġnijiet f’kategoriji mill-vokabularju fil-mira tagħna, iżda identifika biss aspett wieħed (jew “tikketta”) ta’ kull immaġni. Allura mbagħad bdejna naħdmu fuq it-taħriġ tal-mudell biex nikklassifikaw immaġni b’aktar minn tikketta waħda - għalhekk kunċetti bħal “fotografu” u “skultura” jistgħu jiġu identifikati fl-istess immaġni.
Sabiex inħarrġu dan il-mudell ta’ klassifikazzjoni tal-immaġni b’diversi tikketti, kellna niġbru sett ta’ data ta’ taħriġ li kien fih immaġnijiet b’diversi tikketti fil-metadata tagħhom. Għamilna użu mill-API tat-Tiftix tal-Europeana billi fittixna oġġetti indiċjati b’aktar minn kunċett wieħed mill-vokabularju tagħna, li rriżultaw f’total ta’ 9,000 oġġett. Bħal fil-każ tal-isforz preċedenti tagħna ta’ klassifikazzjoni ta’ tikketta unika, aħna ma analizzajniex dan is-sett ta’ data, u għalhekk il-kwalità tat-tikketti kienet tiddependi fuq il-kwalità tal-arrikkimenti preċedenti.
Fil-każ ta’ klassifikazzjoni b’diversi tikketti, il-metadata korretta (jew il-verità bażika) kien fiha aktar minn tikketta waħda għal kull immaġni. Ħriġna netwerk newrali konvoluzzjonali biex nikklassifikaw l-istampi u mbagħad użajna l-mudell li jirriżulta fuq oġġetti miksuba mill-API tat-Tiftix. Tista’ tara xi wħud mill-eżempji bit-tbassir, il-punteġġi ta’ fiduċja u l-mapep ta’ interpretabbiltà tagħhom hawn taħt.

It-tagħlim tagħna
Mill-esperimenti tagħna kkonkludejna li l-mudell jista’ jidentifika b’mod korrett diversi tikketti rilevanti għall-immaġnijiet partikolari. L-approċċ b’diversi tikketti huwa aktar utli mill-użu ta’ tikketti uniċi peress li jista’ japplika diversi tikketti għal kull immaġni b’kunfidenza għolja.
Minkejja r-riżultati interessanti, il-prestazzjoni tal-mudell li jirriżulta hija 'l bogħod milli tkun perfetta, u nistgħu jattribwixxu dan għal diversi fatturi. L-aktar importanti hija l-kwalità relattivament baxxa tas-sett tad-data miġbur. Sibna li ħafna mill-immaġnijiet miksuba ma għandhomx metadata korretta.
Barra minn hekk, il-biċċa l-kbira tad-data użata għat-taħriġ ġiet ipprovduta mill-Museum Diġitali Norveġiż. Dan ifisser li d-data tat-taħriġ ma tirriflettix id-distribuzzjoni sħiħa tad-data fl-Europeana, u dan iwassal biex il-mudell ikun preġudikat lejn id-data li jkun ġie mħarreġ biha. Il-preġudizzji tad-data tat-taħriġ se jissarrfu f’nuqqas ta’ ġeneralizzazzjoni għall-bqija tal-immaġnijiet mill-Europeana. F’termini sempliċi, il-mudell se jaħdem tajjeb fuq immaġnijiet simili għal dawk li jinsabu fis-sett tad-data tat-taħriġ, iżda se jfalli jekk l-immaġnijiet ikunu differenti wisq.
B'mod ġenerali, id-dejta tat-taħriġ tagħna hija tajba biżżejjed biex il-mudell jitgħallem xi mudelli bażiċi. Il-mudell mar tajjeb minkejja l-issettjar diffiċli tal-użu ta’ data b’tikketti żbaljati. Madankollu, il-kwalità tal-arrikkimenti preċedenti mhijiex adattata għall-użu tagħhom bħala data ta’ taħriġ għall-bini ta’ mudell biex jarrikkixxu l-kollezzjonijiet tagħna. Soluzzjoni għal dan hija li jinħoloq sett ta’ data ta’ taħriġ ta’ kwalità ogħla, biex jiġi żgurat li l-mudell tagħna jiġi ppreżentat bit-tikketti t-tajba.
Ħidma futura: l-esternalizzazzjoni tal-folol
Wara t-taħriġ u l-evalwazzjoni tal-mudell ta’ klassifikazzjoni b’diversi tikketti, ikkonkludejna li l-assenjazzjoni ta’ diversi tikketti għall-immaġnijiet mill-kollezzjoni tagħna hija aktar xierqa milli l-arrikkiment tagħhom b’tikketta waħda.
Qed nikkunsidraw li nespandu l-vokabularju billi ninkludu termini oħra rilevanti għall-wirt kulturali. Aktar importanti minn hekk, qed nippjanaw li nirrieżaminaw u nespandu s-sett tad-data tat-taħriġ, bil-għan li nidentifikaw u nikkoreġu l-preġudizzji u l-iżbalji possibbli. Nixtiequ niżguraw li l-mudell tagħna jiġi ppreżentat bit-tikketti t-tajba, li huwa mistenni li jkollu prestazzjoni ferm aħjar minn meta jkun imħarreġ b’tikketti “noisy”. Nedejna kampanja ta’ crowdsourcing għall-bini ta’ sett ta’ data annotat ta’ kwalità għolja b’Zooniverse, u nilqgħu kontribuzzjonijiet mill-komunità tagħna.
Tista’ ssegwi x-xogħol tagħna f’dan ir-repożitorju ta’ Github. Nistednuk ukoll tesperimenta b’dan in-notebook tal-Colab, fejn tista’ tagħmel il-mistoqsijiet tiegħek lill-API tat-Tiftix tal-Europeana u tapplika l-mudell ta’ klassifikazzjoni b’diversi tikketti. Ħossok liberu li tikkuntattjana fuq [email protected] jekk għandek xi mistoqsijiet jew ideat!
