L-arrikkiment għandu rwol fundamentali fl-attivitajiet tal-Europeana. Fil-kuntest tagħna, l-arrikkiment jista’ jiġi definit bħala l-ġenerazzjoni ta’ metadata mid-data pprovduta mis-sħab tagħna, li żżid valur addizzjonali għad-data li nirċievu. Aħna nużaw il-kombinazzjoni ta 'metadata oriġinali u arrikkita għall-indiċjar tar-rekords tagħna, u dan jippermettilna nibnu funzjonalitajiet li jippermettu lin-nies ifittxu u jibbrawżjaw il-kollezzjonijiet tagħna, u jirċievu rakkomandazzjonijiet. Il-kisba ta’ arrikkiment awtomatiku bl-użu ta’ algoritmi ta’ tagħlim awtomatiku hija wieħed mill-objettivi tal-Istrateġija Europeana 2020-2025, li tiskatta proġetti bħal Saint George on a Bike.
It-tim tar-R& tal-Europeana;D qed jesplora kif it-tekniki tal-viżjoni tal-kompjuter (sistemi li jistgħu jagħmlu sens minn data viżwali) jistgħu jtejbu l-arrikkiment li twettaq l-Europeana. Iddeċidejna li nibdew proġett pilota dwar il-klassifikazzjoni tal-immaġnijiet, fejn nibnu mudell li jkun kapaċi jikklassifika l-immaġnijiet minn oġġetti ta’ wirt kulturali diġitalizzati f’sett ta’ kategoriji predefiniti. Aħna nemmnu li sistema mħarrġa bil-kategoriji magħżula tkun utli biex tarrikkixxi l-kollezzjonijiet tagħna.
Tekniki ta 'tagħlim profond, ibbażati fuq ċertu tip ta' mudell matematiku msejjaħ netwerks newrali, huma l-metodu ta 'għażla għal dan it-tip ta' problema. Sabiex inħarrġu network newrali, jeħtieġ li niksbu sett ta’ data ta’ taħriġ li jkun fih ammont kbir ta’ immaġnijiet diġà kklassifikati f’kategoriji magħżula. F'termini sempliċi: jekk nuru immaġnijiet ta' mudelli tal-kompjuter ta' pitturi u ngħidu lill-mudell li dawn l-immaġnijiet kollha huma pitturi, inħarrġu dak il-mudell biex nirrikonoxxu jekk l-immaġnijiet li qatt ma rajna humiex pittura jew le.
L-ewwel passi meħtieġa biex jinbena l-mudell ta’ klassifikazzjoni tal-immaġnijiet kienu li jintgħażel vokabularju fil-mira u li jinġabar sett tad-data tat-taħriġ bl-użu tal-API tat-Tiftix tal-Europeana; Skopri kif għamilna dan hawn taħt.
Id-definizzjoni ta’ vokabularju għall-klassifikazzjoni
Il-vokabularji kkontrollati huma settijiet ta’ kunċetti predefiniti u identifikati b’mod uniku, li jistgħu jintużaw biex tiġi indiċjata d-data u ssir interoperabbli. L-użu ta’ vokabularji fl-irkupru tal-informazzjoni huwa mod konvenjenti għall-organizzazzjoni u r-referenza tal-għarfien.
Fl-Europeana, nużaw kunċetti minn vokabularji (identifikati minn Identifikaturi Uniformi tar-Riżorsi, URIs) bħala parti mill-metadata għall-indiċjar tal-oġġetti tal-wirt kulturali. Għal dan il-proġett, iffukajna fuq għażla ta’ kunċetti mill-Kollezzjoni ta’ Entitajiet tal-Europeana, li għandhom ekwivalenzi ma’ kunċetti mit-Teżawru tal-Arti u l-Arkitettura tal-Getty (AAT). Oriġinarjament, dan il-vokabularju nġabar għall-organizzazzjoni tal-akkwist tal-kontenut għall-kollezzjonijiet tematiċi tagħna. Aħna inkludew 20 kategorija bħal ritratti, pitturi, skulturi, ħwejjeġ, u ġojjellerija.
Aċċess għad-data bl-użu tal-API tat-Tiftix tal-Europeana
Ladarba kellna l-vokabularju tagħna, ridna naċċessaw immaġnijiet li jappartjenu għall-kategoriji differenti għat-taħriġ tal-mudell tagħna. Għamilna dan permezz tal-API tat-Tiftix tal-Europeana, waħda mill-ħafna interfaċċi li jippermettulna nirkupraw oġġetti ta’ wirt kulturali murija f’Europeana.eu. Minħabba mistoqsija u sett ta’ parametri, l-API tat-Tiftix jirritorna rispons li jinqara mill-magni li jkun fih il-metadata tal-oġġetti li jirriżultaw. Ir-rispons tal-API jservi d-data skont il-Mudell tad-Data tal-Europeana.
Fl-isfond tagħna, ikkunsidrajna li kien hemm biss kategorija waħda possibbli għal kull immaġni. Dan ippermettielna niġbru sett ta’ data annotat billi staqsejna l-API tat-Tfittxija għal immaġnijiet li jikkorrispondu għall-kunċetti differenti fil-vokabularju tagħna, u billi użajna dan il-kunċett bħala t-tikketta. B’dan il-mod aħna ġbarna s-sett tad-data awtomatikament u ma kienet meħtieġa l-ebda annotazzjoni manwali.
Peress li ridna li s-sett tad-data tagħna jsegwi l-prinċipji FAIR (traċċabbli, aċċessibbli, interoperabbli u riutilizzabbli), identifikajna b’mod uniku kemm il-kunċetti kif ukoll l-oġġetti tal-wirt kulturali rkuprati, u użajna biss kontenut liċenzjat b’mod miftuħ. Il-metadata servuta mill-API tat-Tiftix hija taħt liċenzja miftuħa, filwaqt li l-kontenut tal-oġġetti tal-wirt kulturali jista’ jkun soġġett għad-drittijiet tal-awtur. Għal dan il-proġett pilota aħna kkunsidrajna biss immaġnijiet ħielsa mid-drittijiet tal-awtur billi stabbilixxejna l-parametru tal-użu mill-ġdid bħala miftuħ.
Fil-każ tagħna, ridna nirkupraw oġġetti indiċjati bil-kunċetti differenti tal-vokabularju. Minflok ma użajna l-verżjoni tal-kunċetti li tinqara mill-bniedem, għamilna mistoqsija għall-kunċett URI direttament billi użajna l-parametru skos_concept (wieħed mill-parametri tat-tiftix tal-API).
Konna interessati li nżommu rekord tal-oġġetti użati biex niġbru s-sett tad-data tagħna. Għal kull oġġett irkuprat, aħna żammejna l-informazzjoni rilevanti f'fajl CSV. Eventwalment, l-immaġnijiet se jkollhom jitniżżlu u jinħażnu fid-diska għat-taħriġ tal-mudell tal-klassifikazzjoni tal-immaġni.
Skopri aktar
Is-sett tad-data għat-taħriġ tal-immaġni issa jista’ jintuża għall-bini ta’ mudell ta’ klassifikazzjoni tal-immaġni li se joħroġ wieħed mill-kunċetti tal-vokabularju mogħti immaġni tal-input. Qed nippjanaw li nkomplu l-ħidma tagħna billi nivvalutaw jekk dan is-sett ta’ data fihx biżżejjed informazzjoni għat-taħriġ ta’ mudell ta’ klassifikazzjoni tal-immaġni, u nivvalutaw jekk il-mudell li jirriżulta huwiex adattat għall-arrikkiment awtomatiku. Se naqsmu l-aġġornamenti permezz tal-aħbarijiet tal-Europeana Pro!
Nittamaw li din il-kariga tħeġġeġ lill-inġiniera u lir-riċerkaturi interessati fl-esperimentazzjoni bil-wirt kulturali biex jużaw l-API tat-Tfittxija tagħna għall-ġbir ta’ settijiet ta’ data għat-tagħlim awtomatiku, u b’mod partikolari biex jużaw il-kollezzjonijiet tagħna għat-taħriġ u l-applikazzjoni ta’ algoritmi tal-viżjoni tal-kompjuter! Ħossok liberu li tiċċekkja r-repożitorju ta’ Github, fejn tista’ ssib il-vokabularji użati, is-settijiet tad-data miġbura, u l-kodiċi għall-ġbir tas-sett tad-data u t-taħriġ ta’ mudell ta’ klassifikazzjoni tal-immaġni. Tinsiex tikkuntattjana fuq [email protected] jekk għandek xi mistoqsijiet, ideat jew esperjenza x’taqsam!
Jekk inti interessat li ssir taf aktar dwar l-IA u l-wirt kulturali diġitali, esplora t-tema tal-IA tagħna fuq Europeana Pro.
