Instruirea modelului nostru de clasificare a imaginilor

Publicat 2 iunie 2021

Un model pentru clasificarea pe o singură etichetă

Setul de date pe care l-am adunat pentru pilotul nostru de clasificare a imaginilor a fost potrivit pentru antrenarea unui model de clasificare cu o singură etichetă - adică un model care generează o singură categorie pentru fiecare imagine. Etichetele sau categoriile din setul de date de antrenament sunt cunoscute și sub denumirea de „adevărul de bază”, ceea ce înseamnă că acestea sunt etichetele adevărate sau corecte pentru imaginile date.

Am folosit un tip de rețea neuronală convoluțională ca clasificator pentru imagini, care este un model matematic cu o structură stratificată inspirată de funcționarea creierului. O rețea neuronală convoluțională este un model de învățare profundă conceput pentru a extrage informații relevante din imagini și reprezintă alegerea obișnuită pentru aplicațiile de viziune pe calculator.

În cazul nostru, intrarea modelului a fost o imagine, iar ieșirea a fost o distribuție de probabilitate pe toate categoriile vocabularului țintă. Aceasta a dat fiecărei categorii un număr între 0 și 1, care este adesea interpretat ca un scor de încredere. Acest model a fost apoi antrenat prin prezicerea iterativă a imaginilor din setul de date și corectarea predicțiilor rezultate prin compararea lor cu adevărul real al terenului.

Odată ce modelul a fost antrenat, i-am evaluat performanța testând-o pe imagini nevăzute și comparând dacă predicția făcută de model corespundea conceptului descris în imagine. Am folosit, de asemenea, un algoritm IA explicabil care ne-a ajutat să înțelegem rezultatul modelului prin vizualizarea regiunilor de interes pentru fiecare dintre categoriile de ieșire. Acest lucru ne-a permis să înțelegem zonele imaginii care sunt cele mai relevante pentru fiecare categorie, ceea ce a oferit indicii despre funcționarea interioară a modelului.

Mai jos, puteți vedea mai multe exemple de predicții pe eșantioane obținute utilizând API-ul de căutare, împreună cu scorurile de încredere și hărțile de explicabilitate. Modelul utilizează următoarele imagini: aanzicht, Beeldbank van de Rijksdienst voor het Cultureel Erfgoed, Țările de Jos, G.Th. Delemarre, 1965-03, CC-BY-SA. Lerkärl, kärl, ship@eng, Vasija, Världskulturmuseet, Suedia, CC-BY. Esimene rohelus, Eesti Sõjamuuseum - Kindral Laidoneri Muuseum, Estonia, Genin, CC0.

Învățăturile noastre

Din rezultatele anterioare, putem vedea că modelul a reușit să surprindă cu succes cele mai relevante concepte ale vocabularului pentru imaginile date. Deși este departe de a fi perfect, modelul poate învăța din colecțiile noastre îmbogățite și poate fi aplicat pe imagini noi pentru a genera metadate potențial utile.

Principala limitare a abordării noastre este că conceptele vocabularului nu sunt exclusive, iar acest lucru nu se aliniază bine cu o singură clasă pentru fiecare imagine. De exemplu, o imagine poate fi o fotografie și poate conține atât o clădire, cât și o sculptură, dar datorită abordării cu o singură etichetă putem doar să ne antrenăm și să ne evaluăm modelul pentru a identifica unul dintre aceste aspecte.

Acest lucru ne oferă un model care produce adesea un scor de încredere ridicat doar pentru una dintre categorii, iar încrederea pentru restul categoriilor este scăzută. Prin stabilirea unui prag scăzut pentru scorurile de încredere ale ieșirii, putem obține mai mult de o etichetă ca ieșire. Cu toate acestea, această abordare nu este ideală, deoarece toate scorurile de încredere trebuie să se adauge la unul (ca în orice distribuție legală a probabilității), ceea ce împiedică valorile ridicate de încredere în cazul unui vocabular cu mai multe categorii.

În mod ideal, modelul nostru ar fi un clasificator multietichetă - un model care este instruit cu mai mult de o etichetă pe imagine și care este capabil să producă scoruri ridicate de încredere pentru mai multe categorii.

De asemenea, merită menționat faptul că setul nostru de date a fost asamblat fără supraveghere umană (nu am examinat imaginile obținute sau nu am verificat dacă acestea sunt într-adevăr aliniate la categorii). Aceasta înseamnă că calitatea setului de date va depinde de metadatele asociate obiectelor de patrimoniu cultural și de îmbogățirile automate anterioare bazate pe metadate. În practică, nu toate imaginile din setul de date de antrenament au fost aliniate la categoriile corecte.

Etapele următoare

În prezent, asamblăm un set de date de formare pentru clasificarea multietichetă și vom împărtăși munca și abordarea noastră într-un viitor post de știri Pro - stay tuned! Între timp, puteți explora depozitul nostru Github pentru pilot și acest notebook Colab, unde puteți face propriile interogări la API-ul Europeana Search și puteți aplica modelul de clasificare cu o singură etichetă.

Nu ezitați să ne contactați la [email protected] dacă aveți întrebări sau idei!

Instruirea modelului nostru de clasificare a imaginilor

Distribuiți

Un model pentru clasificarea pe o singură etichetă

Învățăturile noastre

Etapele următoare

Descoperiți conținuturi conexe