Klasifikační model s více štítky
Jak bylo uvedeno v předchozích zpravodajských příspěvcích Pro, v nadaci Europeana Foundation provozujeme pilotní projekt klasifikace obrázků, který trénuje jednotný model klasifikace obrázků s cílem obohatit naše sbírky. Model, který jsme vyvinuli, byl schopen klasifikovat obrázky do kategorií z našeho cílového slovníku, ale identifikoval pouze jeden aspekt (nebo „štítek“) každého obrázku. Poté jsme začali pracovat na proškolení modelu tak, aby klasifikoval obraz s více než jedním označením, takže pojmy jako „fotografie“ a „sochařství“ by mohly být identifikovány na stejném obrázku.
Abychom mohli trénovat tento víceznačkový model klasifikace obrázků, museli jsme shromáždit tréninkový datový soubor obsahující obrázky s více štítky v jejich metadatech. Využili jsme Europeana Search API k vyhledávání objektů indexovaných více než jedním konceptem z našeho slovníku, což vyústilo v celkem 9 000 objektů. Stejně jako u našeho předchozího úsilí o klasifikaci jednotných štítků jsme tento soubor údajů nepřezkoumali, takže kvalita štítků závisela na kvalitě předchozích obohacení.
V případě klasifikace s více štítky obsahovala správná metadata (nebo základní pravda) více než jeden štítek pro každý obrázek. Trénovali jsme konvoluční neuronovou síť pro klasifikaci obrazů a poté jsme použili výsledný model na objektech získaných z Search API. Níže si můžete prohlédnout některé příklady s jejich předpověďmi, skóre důvěry a mapami interpretovatelnosti.

Naše učení
Z našich experimentů jsme došli k závěru, že model je schopen správně identifikovat více relevantních štítků pro dané obrázky. Přístup založený na více štítcích je užitečnější než používání jednotlivých štítků, protože na každý obrázek může s vysokou jistotou použít několik štítků.
Navzdory zajímavým výsledkům není výkon výsledného modelu zdaleka dokonalý a můžeme to připsat několika faktorům. Nejdůležitější je relativně nízká kvalita shromážděného souboru údajů. Zjistili jsme, že mnoho načtených obrázků nemá správná metadata.
Kromě toho většinu údajů použitých pro odbornou přípravu poskytlo norské DigitalMuseum. To znamená, že údaje o odborné přípravě neodrážejí celou distribuci údajů na Europeaně, což způsobuje, že model je zaujatý vůči údajům, s nimiž byl vyškolen. Předpojatost údajů o školeních se projeví nedostatečným zobecněním ostatních snímků z Europeany. Zjednodušeně řečeno, model bude dobře fungovat na obrázcích podobných těm, které jsou obsaženy v souboru tréninkových dat, ale selže, pokud jsou obrázky příliš odlišné.
Obecně platí, že naše tréninková data jsou dostatečně dobrá, aby se model naučil některé základní vzory. Model si vedl dobře i přes náročné nastavení používání dat s nesprávnými štítky. Kvalita předchozích obohacení však není vhodná pro jejich využití jako tréninkových dat pro sestavení modelu pro obohacení našich sbírek. Řešením je vytvoření kvalitnějšího souboru tréninkových dat, abychom zajistili, že náš model bude prezentován se správnými označeními.
Budoucí práce: crowdsourcing
Po proškolení a vyhodnocení víceznačkového klasifikačního modelu jsme dospěli k závěru, že přiřazení více štítků k obrázkům z naší kolekce je vhodnější než jejich obohacení o jeden štítek.
Zvažujeme rozšíření slovní zásoby o další pojmy týkající se kulturního dědictví. Ještě důležitější je, že plánujeme přezkoumat a rozšířit soubor tréninkových dat s cílem identifikovat a opravit možné předsudky a chyby. Rádi bychom zajistili, aby byl náš model prezentován se správnými etiketami, u nichž se očekává, že budou fungovat výrazně lépe než při školení s "hlučnými" etiketami. Spustili jsme crowdsourcingovou kampaň pro vytvoření vysoce kvalitní anotované datové sady se Zooniverse a vítáme příspěvky naší komunity.
Naši práci můžete sledovat v tomto repozitáři Github. Zveme vás také k experimentování s tímto poznámkovým blokem Colab, kde si můžete zadat vlastní dotazy do rozhraní API Europeana Search a použít víceznakový klasifikační model. Neváhejte nás kontaktovat na [email protected], pokud máte nějaké dotazy nebo nápady!
