Marco Rendina: Per iniziare la conversazione, puoi dirci esattamente cos'è l'analisi dei contenuti delle immagini?
Henk Vanstappen: L'analisi del contenuto delle immagini, nota anche come analisi visiva, è il processo di estrazione di informazioni dalle immagini digitali. Utilizza tecniche e algoritmi sofisticati per analizzare vari aspetti di un'immagine, come oggetti, modelli, colori, trame e forme. Questa tecnologia viene utilizzata in numerosi settori, dalla diagnosi medica alla videosorveglianza.
MR: In che modo ciò è rilevante per il settore del patrimonio culturale?
HV: Nel patrimonio culturale, incontriamo spesso vaste collezioni di immagini digitali con metadati minimi sul loro contenuto effettivo. Immagina un ampio archivio fotografico in cui vengono registrati solo la data e il fotografo. Per l'utente medio, navigare e cercare attraverso una tale raccolta senza informazioni testuali sarebbe un compito arduo. L'analisi delle immagini può automatizzare il rilevamento di oggetti, classificare le immagini in gruppi significativi (ad esempio, immagini contenenti persone) e altro ancora, rendendo queste raccolte più accessibili. Puoi trovare alcuni buoni esempi di ciò che è realizzabile in un'altra serie di post di notizie su Europeana Pro.
MR: Capisco che uno strumento di rilevamento degli oggetti sia stato sviluppato per il progetto AI4Culture - cosa puoi dirci a riguardo?
HV: È uno strumento di rilevamento di oggetti e soggetti. Il rilevamento degli oggetti identifica gli oggetti fisici all'interno di un'immagine, come una stazione ferroviaria o un abito. Il rilevamento del soggetto determina l'oggetto più ampio, come "architettura", "traffico" o "moda". Questo strumento è disponibile in diversi "gusti" per soddisfare vari casi d'uso.
MR: Mi piace l'idea di uno strumento digitale che abbia "gusti" - lo rende molto accessibile. Quali sono questi "sapori" multipli?
HV: Volevamo fornire lo strumento più adatto per diversi scenari. Il «sapore» di base contiene uno strumento di rilevamento di oggetti semplice e ad alta velocità che utilizza il modello MobileNet-SSD v3. È in grado di riconoscere oggetti comuni come automobili, aerei o persone: potresti, ad esempio, utilizzarlo per schermare raccolte di immagini per rilevare contenuti sensibili alla privacy.
Il secondo strumento incluso nel servizio utilizza un sofisticato modello di IA generativa (Salesforce/blip-vqa-base) in grado dicomprendere e rispondere a domande sul contenuto di un'immagine, in modo simile a come ChatGPT opera con il testo. Sebbene sia più avanzato della versione base, non può individuare la posizione di un oggetto all'interno dell'immagine.
La terza opzione del pacchetto sfrutta il servizio Vision di Google, offrendo capacità di rilevamento ancora maggiori. Tuttavia, come servizio commerciale, richiede un account utente su Google Cloud, un servizio cloud che offre il rilevamento di oggetti, rendendolo più adatto per un uso avanzato.
MR: C'è anche uno strumento di rilevamento del colore disponibile. Cosa rende significativa l'analisi del colore?
HV: Il colore è un aspetto cruciale di alcune collezioni, come quelle legate al design e alla moda. Tuttavia, definire i colori è un processo altamente soggettivo. Mentre l'occhio umano può discernere un gioiello come oro o rame, un computer può semplicemente percepirlo come giallo. Inoltre, per un computer, i colori di un'immagine di una pecora in un prato sono solo "bianco" e "verde". Quindi abbiamo creato algoritmi in grado di isolare gli oggetti dallo sfondo e identificare con precisione i loro colori.
MR: Questo strumento incorpora anche il rilevamento di oggetti?
HV: Sì. Mentre lo strumento può isolare automaticamente gli oggetti, gli utenti possono anche aiutare specificando la regione in cui si trova un oggetto. In questo modo, è possibile sfruttare l'output dello strumento di rilevamento oggetti per ottenere i colori di più oggetti all'interno di una singola immagine, se presente.
MR: E lo strumento di rilevamento degli oggetti è disponibile anche in gusti diversi?
HV: In effetti. La prima versione conta i pixel dell'oggetto rilevato, li raggruppa in colori e restituisce la proporzione di ciascun colore in percentuale. La seconda versione utilizza lo stesso modello di intelligenza artificiale generativa dello strumento di rilevamento degli oggetti, fornendo un'interpretazione dei colori più simile a quella umana. Tuttavia, non offre proporzioni cromatiche precise, restituendo invece un insieme limitato di tre o quattro colori dominanti per oggetto.
MR: E' abbastanza completo. Questi strumenti generano output solo in inglese?
HV: Per niente. Gli strumenti forniscono anche collegamenti a Wikidata, una vasta base di conoscenze che alimenta Wikipedia (vedi, per esempio, l'identificatore per il concetto di 'dress'). Ciò consente agli utenti di accedere ai nomi dei colori e degli oggetti praticamente in qualsiasi lingua supportata da Wikidata, migliorando l'accessibilità degli strumenti tra le diverse comunità linguistiche.
MR: Con una tecnologia così avanzata, ci sono preoccupazioni etiche per quanto riguarda il futuro? L'analisi delle immagini potrebbe alla fine sostituire gli esperti umani?
HV: Mentre la tecnologia continua ad evolversi e diventare più sofisticata, è improbabile che sostituisca completamente l'esperienza umana in qualsiasi momento presto. Gli algoritmi, sebbene potenti, non sono infallibili, proprio come l'analisi umana a volte può essere soggettiva. Tuttavia, questi strumenti basati sull'IA offrono vantaggi significativi: sono straordinariamente veloci, coerenti e incrollabili nel concentrarsi su compiti ripetitivi. In definitiva, fungono da preziosi complementi per gli esperti umani, consentendo loro di dedicare il loro tempo a sforzi più sfumati e creativi sfruttando l'IA per l'elaborazione dei dati su larga scala.
MR: Quanto è difficile per gli utenti lavorare con questi strumenti?
HV: Per coloro che sono interessati a esplorare le capacità degli strumenti, abbiamo sviluppato un'interfaccia grafica di base per il rilevamento del colore e lo strumento di rilevamento degli oggetti, in cui gli utenti possono inserire l'URL di un'immagine online e testare i vari sapori e impostazioni. Questo strumento basato sul web non richiede alcuna installazione sul computer dell'utente, anche se è disponibile anche l'opzione per scaricarlo ed eseguirlo localmente. Tuttavia, per integrare questi strumenti nei database esistenti ed elaborare grandi quantità di immagini, sarà necessaria una certa esperienza di programmazione. Per questi casi d'uso avanzati, abbiamo fornito una documentazione completa sulla nostra pagina GitHub per guidare gli sviluppatori attraverso il processo di integrazione senza soluzione di continuità.
Scopri di più
Nel settembre 2024, il progetto AI4Culture lancerà una piattaforma in cui gli strumenti aperti, come gli strumenti di rilevamento sopra presentati, saranno resi disponibili online, insieme alla relativa documentazione e ai materiali di formazione. Tieni d'occhio la pagina del progetto su Europeana Pro per maggiori dettagli e resta sintonizzato sul progetto LinkedIn e sull'account X!
Lo strumento di rilevamento di oggetti e soggetti è inoltre integrato nella piattaforma di aggregazione MINT e offerto come servizio a valore aggiunto pronto all'uso ai suoi utenti. L'interfaccia utente grafica consente agli utenti MINT di arricchire i propri metadati con le annotazioni estratte dallo strumento di analisi delle immagini con pochi clic. Se sei interessato a sfruttare questa funzione MINT appena aggiunta, puoi seguire questo video tutorial.
