Un modèle de classification multi-étiquettes
Comme nous l’avons déjà expliqué dans de précédents articles de Pro News , nous avons mené à la Fondation Europeana un projet pilote de classification d’images, en formant un modèle de classification d’images à étiquette unique pour enrichir nos collections. Le modèle que nous avons développé a permis de classer les images en catégories à partir de notre vocabulaire cible, mais n’a identifié qu’un seul aspect (ou «label») de chaque image. Nous avons donc commencé à travailler sur la formation du modèle à la classification d’une image avec plus d’une étiquette, afin que des concepts tels que «photographie» et «sculpture» puissent être identifiés dans la même image.
Afin de former ce modèle de classification d'images multilabel, nous avons dû rassembler un ensemble de données de formation contenant des images avec plusieurs étiquettes dans leurs métadonnées. Nous avons utilisé l'API Europeana Search en recherchant des objets indexés avec plus d'un concept de notre vocabulaire, ce qui a donné 9 000 objets au total. Comme lors de notre précédent effort de classification des étiquettes uniques, nous n’avons pas examiné cet ensemble de données, de sorte que la qualité des étiquettes dépendait de la qualité des enrichissements précédents.
Dans le cas d'une classification multi-étiquettes, les métadonnées correctes (ou la vérité fondamentale) contenaient plus d'une étiquette pour chaque image. Nous avons formé un réseau de neurones convolutifs pour classer les images, puis nous avons utilisé le modèle résultant sur des objets obtenus à partir de l'API de recherche. Vous pouvez voir certains des exemples avec leurs prédictions, leurs scores de confiance et leurs cartes d'interprétabilité ci-dessous.

Nos apprentissages
De nos expériences, nous avons conclu que le modèle est capable d'identifier correctement plusieurs étiquettes pertinentes pour les images données. L'approche multilabel est plus utile que l'utilisation d'étiquettes uniques, car elle peut appliquer plusieurs étiquettes à chaque image avec une grande confiance.
Malgré les résultats intéressants, la performance du modèle résultant est loin d'être parfaite, et nous pouvons attribuer cela à plusieurs facteurs. Le plus important est la qualité relativement faible de l'ensemble de données recueillies. Nous avons constaté que de nombreuses images récupérées ne contenaient pas de métadonnées correctes.
En outre, la plupart des données utilisées pour la formation ont été fournies par le Norwegian DigitalMuseum. Cela signifie que les données d'entraînement ne reflètent pas l'ensemble de la distribution des données chez Europeana, ce qui provoque un biais du modèle vers les données avec lesquelles il a été formé. Les biais des données d'entraînement se traduiront par un manque de généralisation pour le reste des images d'Europeana. En termes simples, le modèle fonctionnera bien sur des images similaires à celles contenues dans le jeu de données d'entraînement, mais il échouera si les images sont trop différentes.
En général, nos données d'entraînement sont assez bonnes pour que le modèle apprenne certains modèles de base. Le modèle a bien fonctionné malgré le réglage difficile de l'utilisation de données avec des étiquettes incorrectes. Cependant, la qualité des enrichissements précédents ne convient pas pour les utiliser comme données d'entraînement pour construire un modèle d'enrichissement de nos collections. Une solution à cela est de créer un ensemble de données de formation de meilleure qualité, afin de s'assurer que notre modèle est présenté avec les bonnes étiquettes.
Travaux futurs: crowdsourcing
Après la formation et l'évaluation du modèle de classification multi-étiquettes, nous avons conclu que l'attribution de plusieurs étiquettes aux images de notre collection est plus appropriée que de les enrichir d'une seule étiquette.
Nous envisageons d'élargir le vocabulaire en incluant d'autres termes pertinents pour le patrimoine culturel. Plus important encore, nous prévoyons d'examiner et d'élargir l'ensemble de données de formation, dans le but d'identifier et de corriger les biais et les erreurs possibles. Nous souhaitons nous assurer que notre modèle est présenté avec les bonnes étiquettes, ce qui devrait être nettement meilleur que lorsqu'il est formé avec des étiquettes «bruyantes». Nous avons lancé une campagne de crowdsourcing pour construire un ensemble de données annotées de haute qualité avec Zooniverse, et nous nous félicitons des contributions de notre communauté.
Vous pouvez suivre notre travail dans ce dépôt Github. Nous vous invitons également à expérimenter avec ce bloc-notes Colab, où vous pouvez faire vos propres requêtes à l’API Europeana Search et appliquer le modèle de classification multilabel. N'hésitez pas à nous contacter à [email protected] si vous avez des questions ou des idées!
