Wzór klasyfikacji pojedynczej etykiety
Zbiór danych, który zebraliśmy dla naszego pilota klasyfikacji obrazów, był odpowiedni do szkolenia modelu klasyfikacji pojedynczej etykiety - czyli modelu, który wyświetla pojedynczą kategorię na obraz. Etykiety lub kategorie ze zbioru danych treningowych są również znane jako „gruntowa prawda”, co oznacza, że są to prawdziwe lub prawidłowe etykiety dla danych obrazów.
Wykorzystaliśmy rodzaj splotowej sieci neuronowej jako nasz klasyfikator obrazów, który jest modelem matematycznym o warstwowej strukturze inspirowanej funkcjonowaniem mózgu. Splotowa sieć neuronowa to model głębokiego uczenia się zaprojektowany w celu wyodrębnienia istotnych informacji z obrazów i są one zwykłym wyborem dla aplikacji do widzenia komputerowego.
W naszym przypadku wejściem do modelu był obraz, a wyjściem rozkład prawdopodobieństwa we wszystkich kategoriach docelowego słownictwa. Każdej kategorii nadano liczbę od 0 do 1, która jest często interpretowana jako wynik zaufania. Model ten został następnie przeszkolony przez iteracyjne przewidywanie obrazów ze zbioru danych i korygowanie wynikających z nich przewidywań poprzez porównywanie ich z faktyczną prawdą gruntową.

Po przeszkoleniu modelu oceniliśmy jego wydajność, testując go na niewidocznych obrazach i porównując, czy przewidywania dokonane przez model odpowiadały koncepcji przedstawionej na obrazie. Zastosowaliśmy również wyjaśnialny algorytm sztucznej inteligencji, który pomógł nam zrozumieć wyniki modelu, wizualizując interesujące regiony dla każdej z kategorii wyjściowych. Pozwoliło nam to zrozumieć obszary obrazu, które są najbardziej istotne dla każdej kategorii, co dostarczyło wskazówek na temat wewnętrznego funkcjonowania modelu.
Poniżej przedstawiono kilka przykładów przewidywań dotyczących próbek uzyskanych za pomocą interfejsu API wyszukiwania, a także wyniki ufności i mapy wyjaśnialności. Model wykorzystuje następujące obrazy: aanzicht, Beeldbank van de Rijksdienst voor het Cultureel Erfgoed, Holandia, G.Th. Delemarre, 1965-03, CC-BY-SA. Lerkärl, kärl, vessel@eng, Vasija, Världskulturmuseet, Szwecja, CC-BY. Esimene rohelus, Eesti Sõjamuuseum - Kindral Laidoneri Muuseum, Estonia, Genin, CC0.

Nasze doświadczenia
Z poprzednich wyników wynika, że model był w stanie z powodzeniem uchwycić najistotniejsze pojęcia słownictwa dla danych obrazów. Chociaż jest daleki od doskonałości, model może uczyć się z naszych wzbogaconych kolekcji i może być stosowany do nowych obrazów w celu generowania potencjalnie przydatnych metadanych.
Główne ograniczenie naszego podejścia polega na tym, że pojęcia słownictwa nie są wyłączne, a to nie pasuje dobrze do jednej klasy na obraz. Na przykład obraz może być fotografią i zawierać zarówno budynek, jak i rzeźbę, ale dzięki podejściu opartemu na pojedynczej etykiecie możemy trenować i oceniać nasz model tylko w celu zidentyfikowania jednego z tych aspektów.
Daje nam to model, który często daje wysoki wynik zaufania tylko dla jednej kategorii, a zaufanie dla pozostałych kategorii jest niskie. Ustanawiając niski próg dla wyników ufności na wyjściu, możemy uzyskać więcej niż jedną etykietę jako wynik. Podejście to nie jest jednak idealne, ponieważ wszystkie wyniki ufności muszą się sumować do jednego (jak w każdym prawnym rozkładzie prawdopodobieństwa), co zapobiega wysokim wartościom ufności w przypadku słownictwa z wieloma kategoriami.
Idealnie byłoby, gdyby nasz model był klasyfikatorem wieloetykietowym - modelem, który jest szkolony z więcej niż jedną etykietą na obraz i który jest w stanie uzyskać wysokie wyniki ufności dla kilku kategorii.
Warto również wspomnieć, że nasz zbiór danych został zmontowany bez nadzoru człowieka (nie sprawdziliśmy uzyskanych obrazów ani nie sprawdziliśmy, czy są one rzeczywiście zgodne z kategoriami). Oznacza to, że jakość zbioru danych będzie zależeć od metadanych związanych z obiektami dziedzictwa kulturowego oraz od wcześniejszych automatycznych wzbogaceń opartych na metadanych. W praktyce nie wszystkie obrazy ze zbioru danych treningowych były zgodne z odpowiednimi kategoriami.
Kolejne kroki
Obecnie przygotowujemy zestaw danych szkoleniowych do klasyfikacji wieloetykietowej i podzielimy się naszą pracą i podejściem w przyszłym poście informacyjnym Pro - stay tuned! W międzyczasie możesz zapoznać się z naszym repozytorium Github na potrzeby projektu pilotażowego oraz z tym notebookiem Colab, w którym możesz dokonywać własnych zapytań do interfejsu API wyszukiwania Europeana i stosować model klasyfikacji pojedynczej etykiety.
Jeśli masz jakieś pytania lub pomysły, skontaktuj się z nami pod adresem [email protected]!
