Mūsų vaizdo klasifikavimo modelio mokymas

Paskelbta 2021 m. birželio 2 d.

Vienos etiketės klasifikacijos modelis

Duomenų rinkinys, kurį surinkome savo vaizdo klasifikavimo bandomajam projektui, buvo tinkamas mokyti vieną etikečių klasifikavimo modelį - tai yra modelį, kuris sukuria vieną kategoriją vienam vaizdui. Mokymo duomenų rinkinio etiketės arba kategorijos taip pat vadinamos „pagrindine tiesa“, o tai reiškia, kad tai yra tikros arba teisingos konkrečių vaizdų etiketės.

Mes naudojome konvoliucinį neuroninį tinklą kaip vaizdų klasifikatorių, kuris yra matematinis modelis su sluoksniuota struktūra, įkvėpta smegenų veikimo. Konvoliucinis neuroninis tinklas yra gilaus mokymosi modelis, skirtas išgauti atitinkamą informaciją iš vaizdų, ir jie yra įprastas kompiuterinio matymo programų pasirinkimas.

Mūsų atveju modelio įvestis buvo vaizdas, o išvestis buvo tikimybės pasiskirstymas visose tikslinio žodyno kategorijose. Kiekvienai kategorijai jis suteikė skaičių nuo 0 iki 1, kuris dažnai aiškinamas kaip pasitikėjimo balas. Tada šis modelis buvo išmokytas kartotinai prognozuoti vaizdus iš duomenų rinkinio ir ištaisyti gautas prognozes, palyginant jas su faktine žemės tiesa.

Kai modelis buvo apmokytas, mes įvertinome jo veikimą, išbandydami jį su nematomais vaizdais ir palygindami, ar modelio prognozė atitiko paveikslėlyje pavaizduotą koncepciją. Taip pat naudojome paaiškinamo DI algoritmą, kuris padėjo mums suprasti modelio išvedinį, vizualizuojant dominančius regionus kiekvienai išvedinių kategorijai. Tai leido mums suprasti kiekvienai kategorijai aktualiausias vaizdo sritis, kurios pateikė užuominų apie vidinį modelio veikimą.

Toliau pateikiama keletas pavyzdžių, kaip naudojant paieškos API gauti mėginiai prognozuojami, taip pat pasitikėjimo balai ir paaiškinamumo žemėlapiai. Modelis naudoja šiuos vaizdus: aanzicht, Beeldbank van de Rijksdienst voor het Cultureel Erfgoed, Nyderlandai, G.Th. Delemarre, 1965–03, CC-BY-SA. Lerkärl, kärl, ship@eng, Vasija, Världskulturmuseet, Švedija, CC-BY. Esimene rohelus, Eesti Sõjamuuseum - Kindral Laidoneri Muuseum, Estija, Genin, CC0.

Mūsų mokymai

Iš ankstesnių rezultatų matome, kad modelis sugebėjo sėkmingai užfiksuoti svarbiausias pateiktų vaizdų žodyno sąvokas. Nors jis toli gražu nėra tobulas, modelis gali pasimokyti iš mūsų praturtintų kolekcijų ir gali būti taikomas naujiems vaizdams, kad būtų galima generuoti potencialiai naudingus metaduomenis.

Pagrindinis mūsų požiūrio trūkumas yra tas, kad žodyno sąvokos nėra išskirtinės ir tai nėra gerai suderinta su viena atvaizdo klase. Pavyzdžiui, atvaizdas gali būti nuotrauka ir jame gali būti ir pastatas, ir skulptūra, tačiau dėl vienos etiketės metodo galime tik apmokyti ir įvertinti savo modelį, kad nustatytume vieną iš šių aspektų.

Tai suteikia mums modelį, kuris dažnai duoda aukštą pasitikėjimo balą tik vienai iš kategorijų, o likusių kategorijų pasitikėjimas yra mažas. Nustatydami žemą rezultato patikimumo balų ribą, kaip rezultatą galime gauti daugiau nei vieną etiketę. Tačiau šis metodas nėra idealus, nes visi pasitikėjimo balai turi būti sumuojami iki vieno (kaip ir bet kokio teisinio tikimybių pasiskirstymo atveju), o tai užkerta kelią didelėms pasitikėjimo vertėms žodyne su keliomis kategorijomis.

Idealiu atveju, mūsų modelis būtų kelių etikečių klasifikatorius - modelis, kuris yra apmokytas su daugiau nei viena etikete vienam vaizdui ir gali pateikti aukštus pasitikėjimo balus kelioms kategorijoms.

Taip pat verta paminėti, kad mūsų duomenų rinkinys buvo surinktas be žmogaus priežiūros (neperžiūrėjome gautų vaizdų ir nepatikrinome, ar jie iš tiesų atitinka kategorijas). Tai reiškia, kad duomenų rinkinio kokybė priklausys nuo metaduomenų, susijusių su kultūros paveldo objektais, ir nuo ankstesnių automatinių papildymų, grindžiamų metaduomenimis. Praktiškai ne visi mokymo duomenų rinkinio vaizdai buvo suderinti su teisingomis kategorijomis.

Tolesni veiksmai

Šiuo metu mes renkame mokymo duomenų rinkinį, skirtą daugiaženkliam klasifikavimui, ir pasidalinsime savo darbu ir požiūriu būsimame "Pro" naujienų įraše - būkite suderinti! Tuo tarpu galite susipažinti su mūsų „Github“ saugykla, skirta bandomajam projektui, ir šiuo „Colab“ bloknotu, kuriame galite pateikti savo užklausas „Europeana Search“ API ir taikyti vienos etiketės klasifikavimo modelį.

Jei turite klausimų ar idėjų, susisiekite su mumis adresu [email protected]!

Mūsų vaizdo klasifikavimo modelio mokymas

Dalintis

Vienos etiketės klasifikacijos modelis

Mūsų mokymai

Tolesni veiksmai

Atraskite susijusį turinį