Usposabljanje našega modela za klasifikacijo slik

Objavljeno 2. junij 2021

Model za klasifikacijo po posameznih oznakah

Podatkovni niz, ki smo ga zbrali za naš pilotni projekt klasifikacije slik, je bil primeren za usposabljanje enega samega klasifikacijskega modela oznake - to je modela, ki ustvari eno kategorijo na sliko. Oznake ali kategorije iz nabora učnih podatkov so znane tudi kot „zemeljska resnica“, kar pomeni, da so to resnične ali pravilne oznake za dane slike.

Kot klasifikator slik smo uporabili vrsto konvolucijske nevronske mreže, ki je matematični model z večplastno strukturo, ki jo navdihuje delovanje možganov. Konvolucijska nevronska mreža je model globokega učenja, zasnovan za pridobivanje ustreznih informacij iz slik, in so običajna izbira za aplikacije računalniškega vida.

V našem primeru je bil vnos modela slika, izhod pa verjetnostna porazdelitev po vseh kategorijah ciljnega besednjaka. Vsaki kategoriji je dal število med 0 in 1, ki se pogosto razlaga kot ocena zaupanja. Ta model je bil nato usposobljen z iterativnim napovedovanjem slik iz nabora podatkov in popravljanjem dobljenih napovedi s primerjavo z dejansko resnico.

Ko smo model usposobili, smo njegovo zmogljivost ocenili tako, da smo ga testirali na nevidnih slikah in primerjali, ali je napoved modela ustrezala konceptu, prikazanemu na sliki. Uporabili smo tudi algoritem umetne inteligence, ki ga je mogoče pojasniti in ki nam je pomagal razumeti rezultate modela z vizualizacijo interesnih regij za vsako od kategorij rezultatov. To nam je omogočilo razumevanje področij slike, ki so najbolj pomembna za vsako kategorijo, kar je zagotovilo namige o notranjem delovanju modela.

V nadaljevanju je prikazanih več primerov napovedi vzorcev, pridobljenih z uporabo iskalnega API, skupaj z ocenami zaupanja in zemljevidi razložljivosti. Model uporablja naslednje slike: aanzicht, Beeldbank van de Rijksdienst voor het Cultureel Erfgoed, Nizozemska, G.Th. Delemarre, 1965–2003, CC-BY-SA. Lerkärl, kärl, vessel@eng, Vasija, Världskulturmuseet, Švedska, CC-BY. Esimene rohelus, Eesti Sõjamuuseum – Kindral Laidoneri Muuseum, Estonija, Genin, CC0.

Naša spoznanja

Iz prejšnjih rezultatov lahko vidimo, da je model uspešno zajel najpomembnejše koncepte besedišča za dane slike. Čeprav model še zdaleč ni popoln, se lahko uči iz naših obogatenih zbirk in ga lahko uporabimo za nove slike, da ustvarimo potencialno uporabne metapodatke.

Glavna omejitev našega pristopa je, da koncepti besedišča niso izključujoči, kar ni dobro usklajeno z enim samim razredom na sliko. Na primer, slika je lahko fotografija in vsebuje tako stavbo kot skulpturo, vendar lahko zaradi pristopa enotne oznake le usposobimo in ovrednotimo naš model, da prepoznamo enega od teh vidikov.

To nam daje model, ki pogosto daje visoko oceno zaupanja samo za eno od kategorij, pri čemer je zaupanje za ostale kategorije nizko. Z določitvijo nizkega praga za ocene zaupanja rezultatov lahko dobimo več kot eno oznako kot rezultat. Vendar ta pristop ni idealen, saj je treba vse ocene zaupanja sešteti do ena (kot pri vsaki pravni porazdelitvi verjetnosti), kar preprečuje visoke vrednosti zaupanja v primeru besednjaka z več kategorijami.

V idealnem primeru bi bil naš model večnamenski klasifikator - model, ki je usposobljen z več kot eno oznako na sliko in ki lahko ustvari visoke ocene zaupanja za več kategorij.

Omeniti velja tudi, da je bil naš nabor podatkov sestavljen brez človeškega nadzora (pridobljenih slik nismo pregledali ali preverili, ali so dejansko usklajene s kategorijami). To pomeni, da bo kakovost nabora podatkov odvisna od metapodatkov, povezanih s predmeti kulturne dediščine, in prejšnjih samodejnih obogatitev na podlagi metapodatkov. V praksi vse slike iz nabora učnih podatkov niso bile usklajene s pravilnimi kategorijami.

Naslednji koraki

Trenutno sestavljamo nabor učnih podatkov za večnamensko klasifikacijo, svoje delo in pristop pa bomo delili v prihodnji objavi Pro News - ostanite z nami! Medtem lahko raziščete naš repozitorij Github za pilota in ta Colab zvezek, kjer lahko sami poizvedujete v API-ju Europeana Search in uporabite enotni model klasifikacije etiket.

Če imate kakršna koli vprašanja ali ideje, nam pišite na [email protected]!

Usposabljanje našega modela za klasifikacijo slik

Deli

Model za klasifikacijo po posameznih oznakah

Naša spoznanja

Naslednji koraki

Odkrijte povezano vsebino