Un modèle de classification à étiquette unique
L'ensemble de données que nous avons recueilli pour notre projet pilote de classification d'images convenait à la formation d'un modèle de classification d'étiquette unique - c'est-à-dire un modèle qui produit une seule catégorie par image. Les étiquettes ou catégories de l’ensemble de données d’entraînement sont également connues sous le nom de «vérité fondamentale», ce qui signifie qu’il s’agit des étiquettes vraies ou correctes pour les images données.
Nous avons utilisé un type de réseau neuronal convolutif comme classificateur pour les images, qui est un modèle mathématique avec une structure en couches inspirée par le fonctionnement du cerveau. Un réseau neuronal convolutif est un modèle d'apprentissage profond conçu pour extraire des informations pertinentes à partir d'images, et ils sont le choix habituel pour les applications de vision par ordinateur.
Dans notre cas, l'entrée du modèle était une image, et la sortie était une distribution de probabilité sur toutes les catégories du vocabulaire cible. Il a donné à chaque catégorie un nombre compris entre 0 et 1 qui est souvent interprété comme un score de confiance. Ce modèle a ensuite été formé en prédisant itérativement les images de l'ensemble de données et en corrigeant les prédictions résultantes en les comparant à la vérité réelle du terrain.

Une fois le modèle formé, nous avons évalué sa performance en le testant sur des images invisibles et en comparant si la prédiction faite par le modèle correspondait au concept représenté dans l'image. Nous avons également utilisé un algorithme d'IA explicable qui nous a aidés à comprendre la sortie du modèle en visualisant les régions d'intérêt pour chacune des catégories de sortie. Cela nous a permis de comprendre les zones de l'image qui sont les plus pertinentes pour chaque catégorie, ce qui a fourni des indices sur le fonctionnement interne du modèle.
Ci-dessous, vous pouvez voir plusieurs exemples de prédictions sur des échantillons obtenus à l’aide de l’API de recherche, ainsi que les scores de confiance et les cartes d’explicabilité. Le modèle utilise les images suivantes: aanzicht, Beeldbank van de Rijksdienst voor het Cultureel Erfgoed, Pays-Bas, G.Th. Delemarre, 1965-03, CC-BY-SA. Lerkärl, kärl, vessel@eng, Vasija, Världskulturmuseet, Suède, CC-BY. Esimene rohelus, Eesti Sõjamuuseum - Kindral Laidoneri Muuseum, Estonie, Genin, CC0.

Nos apprentissages
À partir des résultats précédents, nous pouvons voir que le modèle a été en mesure de capturer avec succès les concepts les plus pertinents du vocabulaire pour les images données. Bien qu'il soit loin d'être parfait, le modèle peut apprendre de nos collections enrichies et peut être appliqué à de nouvelles images pour générer des métadonnées potentiellement utiles.
La principale limite de notre approche est que les concepts du vocabulaire ne sont pas exclusifs, ce qui ne correspond pas bien à une seule classe par image. Par exemple, une image peut être une photographie et contenir à la fois un bâtiment et une sculpture, mais en raison de l'approche par étiquette unique, nous ne pouvons que former et évaluer notre modèle pour identifier l'un de ces aspects.
Cela nous donne un modèle qui produit souvent un score de confiance élevé pour une seule des catégories, la confiance pour le reste des catégories étant faible. En fixant un seuil bas pour les scores de confiance de la sortie, nous pouvons obtenir plus d'une étiquette comme sortie. Cependant, cette approche n'est pas idéale puisque tous les scores de confiance doivent s'additionner à un (comme dans toute distribution de probabilité légale), ce qui empêche des valeurs de confiance élevées dans le cas d'un vocabulaire avec plusieurs catégories.
Idéalement, notre modèle serait un classificateur multilabel - un modèle qui est formé avec plus d'une étiquette par image et qui est capable de produire des scores de confiance élevés pour plusieurs catégories.
Il convient également de mentionner que notre jeu de données a été assemblé sans supervision humaine (nous n’avons pas examiné les images obtenues ni vérifié si elles étaient ou non alignées sur les catégories). Cela signifie que la qualité de l'ensemble de données dépendra des métadonnées associées aux objets du patrimoine culturel et des enrichissements automatiques antérieurs basés sur les métadonnées. Dans la pratique, toutes les images de l'ensemble de données d'entraînement n'étaient pas alignées sur les catégories correctes.
Prochaines étapes
Nous rassemblons actuellement un ensemble de données de formation pour la classification multilabel, et partagerons notre travail et notre approche dans un futur article d'actualité Pro - restez à l'écoute! En attendant, vous pouvez explorer notre dépôt Github pour le pilote, et ce bloc-notes Colab, où vous pouvez faire vos propres requêtes à l'API Europeana Search et appliquer le modèle de classification à étiquette unique.
N'hésitez pas à nous contacter à [email protected] si vous avez des questions ou des idées!
