Обучение на нашия модел за класификация на изображенията

Публикувано на 2 юни 2021 г.

Модел за класификация на един етикет

Наборът от данни, който събрахме за нашия пилотен проект за класификация на изображенията, беше подходящ за обучение на модел за класификация на един етикет - т.е. модел, който извежда една категория на изображение. Етикетите или категориите от набора от обучителни данни са известни също като „основна истина“, което означава, че това са истинските или правилните етикети за дадените изображения.

Използвахме вид конволюционна невронна мрежа като класификатор за изображенията, което е математически модел с многопластова структура, вдъхновена от функционирането на мозъка. Конволюционната невронна мрежа е модел за дълбоко обучение, предназначен да извлича съответната информация от изображения и те са обичайният избор за приложения за компютърно зрение.

В нашия случай въвеждането на модела беше изображение, а резултатът беше вероятностно разпределение по всички категории на целевия речник. Тя дава на всяка категория число между 0 и 1, което често се интерпретира като доверителен рейтинг. След това този модел е обучен чрез итеративно прогнозиране на изображения от набора от данни и коригиране на получените прогнози чрез сравняването им с действителната основна истина.

След като моделът беше обучен, ние оценихме неговото представяне, като го тествахме върху невидими изображения и сравнихме дали прогнозата, направена от модела, съответства на концепцията, изобразена на изображението. Също така използвахме алгоритъм Explainable AI, който ни помогна да разберем резултата от модела, като визуализирахме регионите, представляващи интерес за всяка от изходните категории. Това ни позволи да разберем областите на изображението, които са най-подходящи за всяка категория, което предостави улики за вътрешното функциониране на модела.

По-долу можете да видите няколко примера за прогнози за извадки, получени с помощта на API за търсене, заедно с оценките на доверието и картите на обяснимостта. Моделът използва следните изображения: aanzicht, Beeldbank van de Rijksdienst voor het Cultureel Erfgoed, Нидерландия, G.Th. Delemarre, 1965—2003 г.,CC-BY-SA. Lerkärl, kärl, vessel@eng, Vasija, Världskulturmuseet, Швеция, CC-BY. Esimene rohelus, Eesti Sõjamuuseum - Kindral Laidoneri Muuseum, Estonia, Genin, CC0.

Нашите знания

От предишните резултати можем да видим, че моделът е успял успешно да улови най-подходящите понятия от речника за дадените изображения. Въпреки че далеч не е перфектен, моделът може да се учи от нашите обогатени колекции и може да се прилага към нови изображения, за да генерира потенциално полезни метаданни.

Основното ограничение на нашия подход е, че понятията в речника не са изключителни и това не съответства добре на един клас на изображение. Например, едно изображение може да бъде снимка и да съдържа както сграда, така и скулптура, но благодарение на подхода за единен етикет можем само да обучим и оценим нашия модел, за да идентифицираме един от тези аспекти.

Това ни дава модел, който често дава висока оценка на доверие само за една от категориите, като увереността за останалите категории е ниска. Чрез задаване на нисък праг за доверителните оценки на изхода, можем да получим повече от един етикет като изход. Този подход обаче не е идеален, тъй като всички оценки на доверието трябва да се сумират до една (както при всяко правно разпределение на вероятностите), което предотвратява високите стойности на доверието в случай на речник с множество категории.

В идеалния случай нашият модел ще бъде многоетикетен класификатор - модел, който е обучен с повече от един етикет на изображение и който е в състояние да изведе високи оценки на доверие за няколко категории.

Заслужава да се отбележи също така, че нашият набор от данни е бил сглобен без човешки надзор (не сме прегледали получените изображения или не сме проверили дали те наистина са приведени в съответствие с категориите). Това означава, че качеството на набора от данни ще зависи от метаданните, свързани с обектите на културното наследство, и от предишни автоматични обогатявания въз основа на метаданни. На практика не всички изображения от набора от обучителни данни са приведени в съответствие с правилните категории.

Следващи стъпки

В момента сглобяваме набор от данни за обучение за класификация на мултиетикети и ще споделим нашата работа и подход в бъдещ Pro новинарски пост - останете настроени! Междувременно можете да разгледате нашето Github хранилище за пилотния проект и този бележник на Colab, където можете да направите свои собствени заявки към API за търсене на Europeana и да приложите модела за класификация на единния етикет.

Чувствайте се свободни да се свържете с нас на [email protected], ако имате въпроси или идеи!

Обучение на нашия модел за класификация на изображенията

Споделяне

Модел за класификация на един етикет

Нашите знания

Следващи стъпки

Открийте свързано съдържание