Marco Rendina: Pour lancer la conversation, pouvez-vous nous dire exactement ce qu'est l'analyse de contenu d'image?
Henk Vanstappen: L'analyse de contenu d'image, également connue sous le nom d'analyse visuelle, est le processus d'extraction d'informations à partir d'images numériques. Il utilise des techniques et des algorithmes sophistiqués pour analyser divers aspects d'une image, tels que les objets, les motifs, les couleurs, les textures et les formes. Cette technologie est utilisée dans de nombreux domaines, du diagnostic médical à la vidéosurveillance.
MR : En quoi cela est-il pertinent pour le secteur du patrimoine culturel?
HV: Dans le patrimoine culturel, nous rencontrons souvent de vastes collections d'images numériques avec un minimum de métadonnées sur leur contenu réel. Imaginez une vaste archive de photos où seules la date et le photographe sont enregistrés. Pour l'utilisateur moyen, naviguer et rechercher dans une telle collection sans informations textuelles serait une tâche ardue. L'analyse d'images peut automatiser la détection d'objets, classer les images en groupes significatifs (par exemple, les images contenant des personnes) et plus encore, rendant ces collections plus accessibles. Vous pouvez trouver quelques bons exemples de ce qui est réalisable dans une autre série d'articles de presse sur Europeana Pro.
MR : Je comprends qu'un outil de détection d'objets a été développé pour le projet AI4Culture - que pouvez-vous nous en dire?
HV: C'est un outil de détection d'objets et de sujets. La détection d'objets identifie des objets physiques à l'intérieur d'une image, comme une gare ou une robe. La détection du sujet détermine le sujet plus large, comme «architecture», «trafic» ou «mode». Cet outil est disponible dans différents «goûts» pour répondre à divers cas d'utilisation.
MR : J’aime cette idée d’un outil numérique ayant des «arômes» - cela le rend très accessible. Quels sont ces multiples « saveurs »?
HV: Nous voulions fournir l'outil le plus approprié pour différents scénarios. L’«arôme» de base est un outil de détection d’objets simple et rapide qui utilise le modèle MobileNet-SSD v3. Il est capable de reconnaître des objets communs tels que des voitures, des avions ou des personnes – vous pourriez, par exemple, l’utiliser pour filtrer les collections d’images afin de détecter les contenus sensibles au respect de la vie privée.
Le deuxième outil packagé dans le service utilise un modèle d'IA générative sophistiqué (Salesforce/blip-vqa-base) qui peut comprendre et répondre aux questions sur le contenu d'une image, de la même manière que ChatGPT fonctionne avec du texte. Bien que plus avancé que la version de base, il ne peut pas localiser l'emplacement d'un objet dans l'image.
La troisième option du package exploite le service Vision de Google, offrant des capacités de détection encore plus grandes. Cependant, en tant que service commercial, il nécessite un compte utilisateur sur Google Cloud, un service cloud offrant la détection d'objets, ce qui le rend plus adapté à une utilisation avancée.
MR : Un outil de détection des couleurs est également disponible. Qu'est-ce qui rend l'analyse des couleurs significative?
HV: La couleur est un aspect crucial de certaines collections, comme celles liées au design et à la mode. Cependant, définir les couleurs est un processus très subjectif. Alors que l'œil humain peut discerner un bijou comme de l'or ou du cuivre, un ordinateur peut simplement le percevoir comme jaune. De plus, pour un ordinateur, les couleurs d'une image d'un mouton dans une prairie sont simplement «blanches» et «vertes». Nous avons donc créé des algorithmes qui peuvent isoler les objets de l'arrière-plan et identifier avec précision leurs couleurs.
MR : Cet outil intègre-t-il également la détection d'objets?
HV: Oui. Bien que l'outil puisse isoler automatiquement les objets, les utilisateurs peuvent également aider en spécifiant la région où se trouve un objet. De cette façon, vous pouvez tirer parti de la sortie de l'outil de détection d'objets pour obtenir les couleurs de plusieurs objets dans une seule image, le cas échéant.
MR : Et l'outil de détection d'objets existe-t-il également dans des saveurs différentes?
HV: En effet. La première version compte les pixels de l'objet détecté, les regroupe en couleurs et renvoie la proportion de chaque couleur en pourcentage. La deuxième version utilise le même modèle d'IA générative que l'outil de détection d'objets, fournissant une interprétation plus humaine des couleurs. Cependant, il n'offre pas de proportions de couleurs précises, mais renvoie plutôt un ensemble limité de trois ou quatre couleurs dominantes par objet.
MR : C'est assez complet. Ces outils génèrent-ils des résultats uniquement en anglais?
HV: Pas du tout. Les outils fournissent également des liens vers Wikidata, une vaste base de connaissances qui alimente Wikipédia (voir, par exemple, l'identifiant du concept «dress»). Cela permet aux utilisateurs d'accéder aux noms de couleurs et d'objets dans pratiquement n'importe quelle langue prise en charge par Wikidata, améliorant ainsi l'accessibilité des outils dans diverses communautés linguistiques.
MR : Avec une technologie aussi avancée, y a-t-il des préoccupations éthiques concernant l'avenir? L'analyse d'images pourrait-elle éventuellement remplacer les experts humains?
HV: Bien que la technologie continue d'évoluer et de devenir plus sophistiquée, il est peu probable qu'elle remplace entièrement l'expertise humaine de sitôt. Les algorithmes, bien que puissants, ne sont pas infaillibles, tout comme l'analyse humaine peut parfois être subjective. Cependant, ces outils basés sur l'IA offrent des avantages significatifs: ils sont remarquablement rapides, cohérents et inébranlables dans leur focalisation sur les tâches répétitives. En fin de compte, ils servent de compléments précieux aux experts humains, leur permettant de consacrer leur temps à des efforts créatifs plus nuancés tout en tirant parti de l'IA pour le traitement de données à grande échelle.
MR : Dans quelle mesure est-il difficile pour les utilisateurs de travailler avec ces outils?
HV: Pour ceux qui souhaitent explorer les capacités des outils, nous avons développé une interface graphique de base pour la détection des couleurs et l'outil de détection des objets, où les utilisateurs peuvent saisir l'URL d'une image en ligne et tester les différentes saveurs et paramètres. Cet outil Web ne nécessite aucune installation sur l'ordinateur de l'utilisateur, bien que l'option de le télécharger et de l'exécuter localement soit également disponible. Cependant, pour intégrer ces outils dans les bases de données existantes et traiter de grandes quantités d'images, une certaine expertise en programmation sera nécessaire. Pour de tels cas d'utilisation avancés, nous avons fourni une documentation complète sur notre page GitHub pour guider les développeurs tout au long du processus d'intégration.
En savoir plus
En septembre 2024, le projet AI4Culture lancera une plateforme où les outils ouverts, tels que les outils de détection présentés ci-dessus, seront mis à disposition en ligne, ainsi que la documentation et le matériel de formation connexes. Gardez un œil sur la page du projet sur Europeana Pro pour plus de détails et restez à l'écoute sur le compte LinkedIn et X du projet!
L'outil de détection d'objets et de sujets est également intégré à la plateforme d'agrégation MINT et proposé en tant que service à valeur ajoutée prêt à l'emploi à ses utilisateurs. L'interface utilisateur graphique permet aux utilisateurs de MINT d'enrichir leurs métadonnées avec les annotations extraites par l'outil d'analyse d'images en quelques clics. Si vous souhaitez profiter de cette nouvelle fonctionnalité MINT, vous pouvez suivre ce tutoriel vidéo.
