Školenie nášho modelu klasifikácie obrázkov

Zverejnené 2. júna 2021

Vzor klasifikácie jednej etikety

Súbor údajov, ktorý sme zhromaždili pre náš pilotný projekt klasifikácie obrázkov, bol vhodný na trénovanie modelu klasifikácie jedného štítka - to znamená modelu, ktorý produkuje jednu kategóriu na obrázok. Označenia alebo kategórie zo súboru trénovacích údajov sú známe aj ako „pravda o pôvode“, čo znamená, že ide o pravdivé alebo správne označenia pre dané obrázky.

Ako náš klasifikátor obrázkov sme použili typ konvolučnej neurónovej siete, čo je matematický model s vrstvenou štruktúrou inšpirovanou fungovaním mozgu. Konvolučná neurónová sieť je model hlbokého učenia určený na extrakciu relevantných informácií z obrázkov a sú bežnou voľbou pre aplikácie počítačového videnia.

V našom prípade bol vstupom modelu obrázok a výstupom bolo rozdelenie pravdepodobnosti vo všetkých kategóriách cieľovej slovnej zásoby. Každej kategórii dala číslo od 0 do 1, ktoré sa často interpretuje ako skóre spoľahlivosti. Tento model bol potom trénovaný opakovaným predpovedaním obrázkov zo súboru údajov a opravovaním výsledných predpovedí ich porovnaním so skutočnou základnou pravdou.

Akonáhle bol model vyškolený, posúdili sme jeho výkonnosť testovaním na neviditeľných obrázkoch a porovnaním toho, či predpoveď vytvorená modelom zodpovedala koncepcii zobrazenej na obrázku. Využili sme aj algoritmus vysvetliteľnej umelej inteligencie, ktorý nám pomohol pochopiť výstup modelu vizualizáciou oblastí záujmu pre každú z výstupných kategórií. To nám umožnilo pochopiť oblasti obrazu, ktoré sú najrelevantnejšie pre každú kategóriu, čo poskytlo stopy o vnútornom fungovaní modelu.

Nižšie nájdete niekoľko príkladov predpovedí na vzorkách získaných pomocou rozhrania API vyhľadávania spolu so skóre spoľahlivosti a mapami vysvetliteľnosti. Model používa nasledujúce obrázky: aanzicht, Beeldbank van de Rijksdienst voor het Cultureel Erfgoed, Holandsko, G.Th. Delemarre, 1965 – 03, CC-BY-SA. Lerkärl, kärl, vessel@eng, Vasija, Världskulturmuseet, Švédsko, CC-BY. Esimene rohelus, Eesti Sõjamuuseum - Kindral Laidoneri Muuseum, Estónsko, Genin, CC0.

Naše učenie

Z predchádzajúcich výsledkov môžeme vidieť, že model bol schopný úspešne zachytiť najrelevantnejšie pojmy slovnej zásoby pre dané obrázky. Aj keď nie je ani zďaleka dokonalý, model sa môže poučiť z našich obohatených zbierok a môže byť aplikovaný na nové obrázky na generovanie potenciálne užitočných metaúdajov.

Hlavným obmedzením nášho prístupu je, že pojmy slovnej zásoby nie sú výlučné, čo nie je v súlade s jednou triedou na obrázok. Napríklad obrázok môže byť fotografiou a obsahovať budovu aj sochu, ale vďaka prístupu jedinej značky môžeme len trénovať a hodnotiť náš model, aby sme identifikovali jeden z týchto aspektov.

To nám dáva model, ktorý často prináša vysoké skóre spoľahlivosti len pre jednu z kategórií, pričom dôvera pre ostatné kategórie je nízka. Nastavením nízkej prahovej hodnoty pre skóre spoľahlivosti výstupu môžeme získať viac ako jedno označenie ako výstup. Tento prístup však nie je ideálny, pretože všetky hodnotenia spoľahlivosti sa musia sčítať do jedného (ako pri akomkoľvek právnom rozdelení pravdepodobnosti), čo bráni vysokým hodnotám spoľahlivosti v prípade slovníka s viacerými kategóriami.

V ideálnom prípade by náš model bol multilabel klasifikátor - model, ktorý je vyškolený s viac ako jedným štítkom na obrázok a ktorý je schopný produkovať vysoké skóre spoľahlivosti pre niekoľko kategórií.

Stojí tiež za zmienku, že náš súbor údajov bol zostavený bez ľudského dohľadu (získané snímky sme nepreskúmali ani neoverili, či sú skutočne v súlade s kategóriami). To znamená, že kvalita súboru údajov bude závisieť od metaúdajov súvisiacich s predmetmi kultúrneho dedičstva a od predchádzajúceho automatického obohacovania na základe metaúdajov. V praxi neboli všetky obrázky zo súboru trénovacích údajov zosúladené so správnymi kategóriami.

Ďalšie kroky

V súčasnosti zostavujeme tréningový dátový súbor pre multilabel klasifikáciu a budeme zdieľať našu prácu a prístup v budúcom príspevku Pro news - zostaňte naladení! Medzitým si môžete prezrieť náš archív Github pre pilotný projekt a tento notebook Colab, kde si môžete vytvoriť vlastné dotazy na rozhranie Europeana Search API a použiť model klasifikácie jednotnej značky.

Ak máte akékoľvek otázky alebo nápady, neváhajte nás kontaktovať na [email protected]!

Školenie nášho modelu klasifikácie obrázkov

Zdieľať

Vzor klasifikácie jednej etikety

Naše učenie

Ďalšie kroky

Objavte súvisiaci obsah