Školení našeho modelu klasifikace obrazu

Publikováno 2. června 2021

Model pro klasifikaci podle jednotného štítku

Soubor dat, který jsme shromáždili pro náš pilotní projekt klasifikace obrázků, byl vhodný pro výcvik jednotného klasifikačního modelu - tj. modelu, který vygeneruje jednu kategorii na obrázek. Označení nebo kategorie ze souboru tréninkových dat jsou také známé jako „pravda o zemi“, což znamená, že se jedná o pravdivé nebo správné označení daných obrázků.

Jako klasifikátor obrazů jsme použili typ konvoluční neuronové sítě, což je matematický model s vrstvenou strukturou inspirovanou fungováním mozku. Konvoluční neuronová síť je model hlubokého učení určený k extrakci relevantních informací z obrazů a je obvyklou volbou pro aplikace počítačového vidění.

V našem případě byl vstup modelu obraz a výstupem bylo rozdělení pravděpodobnosti napříč všemi kategoriemi cílové slovní zásoby. Každé kategorii bylo přiděleno číslo mezi 0 a 1, které je často interpretováno jako skóre spolehlivosti. Tento model byl poté trénován iterativním předpovídáním obrazů z datové sady a korekcí výsledných předpovědí jejich porovnáním se skutečnou pozemskou pravdou.

Jakmile byl model vytrénován, vyhodnotili jsme jeho výkonnost tím, že jsme jej otestovali na neviditelných obrazech a porovnali jsme, zda predikce provedená modelem odpovídala konceptu zobrazenému na obrázku. Použili jsme také algoritmus vysvětlitelné umělé inteligence, který nám pomohl pochopit výstup modelu tím, že vizualizoval oblasti zájmu pro každou z kategorií výstupů. To nám umožnilo pochopit oblasti obrazu, které jsou pro každou kategorii nejrelevantnější, což poskytlo vodítka o vnitřním fungování modelu.

Níže naleznete několik příkladů předpovědí na vzorcích získaných pomocí rozhraní API pro vyhledávání spolu se skórem spolehlivosti a mapami vysvětlitelnosti. Model používá následující obrázky: aanzicht, Beeldbank van de Rijksdienst voor het Cultureel Erfgoed, Nizozemsko, G.Th. Delemarre, 1965–03, CC-BY-SA. Lerkärl, kärl, vessel@eng, Vasija, Världskulturmuseet, Švédsko, CC-BY. Esimene rohelus, Eesti Sõjamuuseum - Kindral Laidoneri Muuseum, Estonsko, Genin, CC0.

Naše učení

Z předchozích výsledků je patrné, že model byl schopen úspěšně zachytit nejrelevantnější koncepty slovní zásoby pro dané obrazy. I když to zdaleka není dokonalé, model se může učit z našich obohacených sbírek a může být aplikován na nové obrázky, aby generoval potenciálně užitečná metadata.

Hlavním omezením našeho přístupu je to, že pojmy slovní zásoby nejsou výlučné, což není v souladu s jedinou třídou na obrázek. Například obraz může být fotografie a obsahovat jak budovu, tak sochu, ale díky přístupu jednotného štítku můžeme pouze trénovat a hodnotit náš model, abychom identifikovali jeden z těchto aspektů.

To nám dává model, který často vede k vysokému skóre spolehlivosti pouze pro jednu z kategorií, přičemž důvěra pro ostatní kategorie je nízká. Nastavením nízké prahové hodnoty pro skóre spolehlivosti výstupu můžeme získat více než jeden štítek jako výstup. Tento přístup však není ideální, protože všechna skóre spolehlivosti musí sečíst jedno (jako v jakémkoli právním rozdělení pravděpodobnosti), což brání vysokým hodnotám spolehlivosti v případě slovní zásoby s více kategoriemi.

V ideálním případě by náš model byl multilabel klasifikátor - model, který je trénován s více než jedním štítkem na obrázek a který je schopen produkovat vysoké skóre spolehlivosti pro několik kategorií.

Rovněž stojí za zmínku, že náš datový soubor byl sestaven bez lidského dohledu (získané snímky jsme nepřezkoumali ani nezkontrolovali, zda jsou skutečně v souladu s kategoriemi). To znamená, že kvalita souboru údajů bude záviset na metadatech souvisejících s předměty kulturního dědictví a na předchozím automatickém obohacení na základě metadat. V praxi nebyly všechny obrázky ze souboru tréninkových dat sladěny se správnými kategoriemi.

Další kroky

V současné době sestavujeme tréninkový dataset pro multilabel klasifikaci a budeme sdílet naši práci a přístup v budoucím Pro news postu - zůstaňte naladěni! Mezitím si můžete prohlédnout náš repozitář Github pro pilotní projekt a tento notebook Colab, kde si můžete vytvořit vlastní dotazy na Europeana Search API a použít model klasifikace jednotného štítku.

Neváhejte nás kontaktovat na [email protected], pokud máte nějaké dotazy nebo nápady!

Školení našeho modelu klasifikace obrazu

sdílet

Model pro klasifikaci podle jednotného štítku

Naše učení

Další kroky

Objevte související obsah