Formazione del nostro modello di classificazione delle immagini

Pubblicato 2 giugno 2021

Un modello per la classificazione delle singole etichette

Il set di dati che abbiamo raccolto per il nostro progetto pilota di classificazione delle immagini era adatto per l'addestramento di un modello di classificazione a etichetta singola, ovvero un modello che produce una singola categoria per immagine. Le etichette o le categorie del set di dati di formazione sono anche note come "verità fondamentale", nel senso che si tratta delle etichette vere o corrette per le immagini fornite.

Abbiamo usato un tipo di rete neurale convoluzionale come nostro classificatore per le immagini, che è un modello matematico con una struttura stratificata ispirata al funzionamento del cervello. Una rete neurale convoluzionale è un modello di apprendimento profondo progettato per estrarre informazioni rilevanti dalle immagini e sono la scelta abituale per le applicazioni di visione artificiale.

Nel nostro caso, l'input del modello era un'immagine, e l'output era una distribuzione di probabilità su tutte le categorie del vocabolario di destinazione. Ha dato a ciascuna categoria un numero compreso tra 0 e 1 che viene spesso interpretato come un punteggio di fiducia. Questo modello è stato quindi addestrato predicendo iterativamente le immagini dal set di dati e correggendo le previsioni risultanti confrontandole con la verità reale.

Una volta che il modello è stato addestrato, abbiamo valutato le sue prestazioni testandolo su immagini invisibili e confrontando se la previsione fatta dal modello corrispondeva al concetto raffigurato nell'immagine. Abbiamo anche impiegato un algoritmo di intelligenza artificiale spiegabile che ci ha aiutato a comprendere l'output del modello visualizzando le regioni di interesse per ciascuna delle categorie di output. Questo ci ha permesso di capire le aree dell'immagine che sono più rilevanti per ogni categoria, che ha fornito indizi sul funzionamento interno del modello.

Di seguito sono riportati diversi esempi di previsioni su campioni ottenuti utilizzando l'API di ricerca, insieme ai punteggi di confidenza e alle mappe di spiegabilità. Il modello utilizza le seguenti immagini: aanzicht, Beeldbank van de Rijksdienst voor het Cultureel Erfgoed, Paesi Bassi, G.Th. Delemarre, 1965-03, CC-BY-SA. Lerkärl, kärl, vessel@eng, Vasija, Världskulturmuseet, Svezia, CC-BY. Esimene rohelus, Eesti Sõjamuuseum - Kindral Laidoneri Muuseum, Estonia, Genin, CC0.

I nostri apprendimenti

Dai risultati precedenti, possiamo vedere che il modello è stato in grado di catturare con successo i concetti più rilevanti del vocabolario per le immagini date. Mentre è tutt'altro che perfetto, il modello può imparare dalle nostre collezioni arricchite e può essere applicato a nuove immagini per generare metadati potenzialmente utili.

La principale limitazione del nostro approccio è che i concetti del vocabolario non sono esclusivi e questo non si allinea bene con una singola classe per immagine. Ad esempio, un'immagine può essere una fotografia e contenere sia un edificio che una scultura, ma grazie all'approccio a etichetta singola possiamo solo addestrare e valutare il nostro modello per identificare uno di questi aspetti.

Questo ci dà un modello che spesso produce un punteggio di fiducia elevato solo per una delle categorie, con la fiducia per il resto delle categorie bassa. Impostando una soglia bassa per i punteggi di confidenza dell'output, possiamo ottenere più di un'etichetta come output. Tuttavia, questo approccio non è ideale poiché tutti i punteggi di confidenza devono sommarsi a uno (come in qualsiasi distribuzione di probabilità legale), il che impedisce valori di confidenza elevati nel caso di un vocabolario con più categorie.

Idealmente, il nostro modello sarebbe un classificatore multilabel - un modello che è addestrato con più di un'etichetta per immagine e che è in grado di produrre punteggi di affidabilità elevati per diverse categorie.

Vale anche la pena ricordare che il nostro set di dati è stato assemblato senza la supervisione umana (non abbiamo esaminato le immagini ottenute o verificato se fossero effettivamente allineate alle categorie). Ciò significa che la qualità del set di dati dipenderà dai metadati associati ai beni del patrimonio culturale e dai precedenti arricchimenti automatici basati sui metadati. In pratica non tutte le immagini del set di dati di allenamento sono state allineate con le categorie corrette.

Prossime tappe

Stiamo attualmente assemblando un set di dati di formazione per la classificazione multilabel e condivideremo il nostro lavoro e il nostro approccio in un futuro post di notizie Pro - rimanete sintonizzati! Nel frattempo, puoi esplorare il nostro repository Github per il pilota e questo notebook Colab, dove puoi fare le tue query all'API di ricerca di Europeana e applicare il modello di classificazione a etichetta singola.

Non esitate a contattarci all'indirizzo [email protected] se avete domande o idee!

Formazione del nostro modello di classificazione delle immagini

Condividi

Un modello per la classificazione delle singole etichette

I nostri apprendimenti

Prossime tappe

Scopri i contenuti correlati