Conclusione del progetto pilota Europeana per la classificazione delle immagini

Pubblicato 2 novembre 2021

Un modello di classificazione multimarca

Come esplorato nei precedenti post di notizie Pro, presso la Fondazione Europeana abbiamo condotto un progetto pilota di classificazione delle immagini, formando un modello di classificazione delle immagini a etichetta singola per arricchire le nostre collezioni. Il modello che abbiamo sviluppato è stato in grado di classificare le immagini in categorie dal nostro vocabolario di destinazione, ma ha identificato solo un aspetto (o "etichetta") di ciascuna immagine. Quindi abbiamo iniziato a lavorare sulla formazione del modello per classificare un'immagine con più di un'etichetta, in modo che concetti come "fotografia" e "scultura" potessero essere identificati nella stessa immagine.

Per addestrare questo modello di classificazione delle immagini multilabel, abbiamo dovuto raccogliere un set di dati di formazione contenente immagini con più etichette nei loro metadati. Abbiamo utilizzato l'API Europeana Search cercando oggetti indicizzati con più di un concetto del nostro vocabolario, ottenendo 9.000 oggetti in totale. Come per il nostro precedente sforzo di classificazione delle etichette uniche, non abbiamo esaminato questa serie di dati, pertanto la qualità delle etichette dipendeva dalla qualità dei precedenti arricchimenti.

Nel caso della classificazione multilabel, i metadati corretti (o verità di fondo) contenevano più di un'etichetta per ogni immagine. Abbiamo addestrato una rete neurale convoluzionale per classificare le immagini e quindi utilizzato il modello risultante sugli oggetti ottenuti dall'API di ricerca. Puoi vedere alcuni degli esempi con le loro previsioni, i punteggi di confidenza e le mappe di interpretabilità qui sotto.

I nostri apprendimenti

Dai nostri esperimenti abbiamo concluso che il modello è in grado di identificare correttamente più etichette rilevanti per le immagini date. L'approccio multilabel è più utile rispetto all'utilizzo di etichette singole poiché può applicare più etichette a ciascuna immagine con elevata sicurezza.

Nonostante i risultati interessanti, le prestazioni del modello risultante sono tutt'altro che perfette, e possiamo attribuire questo a diversi fattori. La più importante è la qualità relativamente bassa del set di dati raccolto. La Corte ha scoperto che molte delle immagini recuperate non dispongono di metadati corretti.

Inoltre, la maggior parte dei dati utilizzati per la formazione è stata fornita dal museo digitale norvegese. Ciò significa che i dati di formazione non riflettono l'intera distribuzione dei dati presso Europeana, causando una distorsione del modello rispetto ai dati con cui è stato addestrato. I pregiudizi dei dati di formazione si tradurranno in una mancanza di generalizzazione per il resto delle immagini di Europeana. In termini semplici, il modello funzionerà bene su immagini simili a quelle contenute nel set di dati di allenamento, ma fallirà se le immagini sono troppo diverse.

In generale, i nostri dati di allenamento sono abbastanza buoni per consentire al modello di apprendere alcuni modelli di base. Il modello ha funzionato bene nonostante l'impostazione impegnativa dell'utilizzo di dati con etichette errate. Tuttavia, la qualità degli arricchimenti precedenti non è adatta per utilizzarli come dati di formazione per costruire un modello per arricchire le nostre collezioni. Una soluzione a questo è quella di creare un set di dati di formazione di qualità superiore, per garantire che il nostro modello sia presentato con le giuste etichette.

Lavori futuri: crowdsourcing

Dopo aver addestrato e valutato il modello di classificazione multilabel, abbiamo concluso che assegnare più etichette alle immagini della nostra collezione è più adatto che arricchirle con un'unica etichetta.

Stiamo considerando di ampliare il vocabolario includendo altri termini rilevanti per il patrimonio culturale. Ancora più importante, stiamo pianificando di rivedere ed espandere il set di dati di formazione, con l'obiettivo di identificare e correggere possibili pregiudizi ed errori. Vorremmo garantire che il nostro modello sia presentato con le etichette giuste, che dovrebbero funzionare significativamente meglio rispetto a quando addestrato con etichette "rumorose". Abbiamo lanciato una campagna di crowdsourcing per la costruzione di un set di dati annotati di alta qualità con Zooniverse e accogliamo con favore i contributi della nostra comunità.

Puoi seguire il nostro lavoro in questo repository Github. Vi invitiamo inoltre a sperimentare con questo notebook Colab, in cui è possibile effettuare le proprie query all'API Europeana Search e applicare il modello di classificazione multilabel. Non esitate a contattarci all'indirizzo [email protected] se avete domande o idee!

Conclusione del progetto pilota Europeana per la classificazione delle immagini

Condividi

Un modello di classificazione multimarca

I nostri apprendimenti

Lavori futuri: crowdsourcing

Scopri i contenuti correlati