Închideți întâlnirile cu IA: o scufundare profundă în analiza conținutului imaginii

Publicat 20 iunie 2024 de

Henk Vanstappen (Datable)

Marco Rendina (European Fashion Heritage Association)

Marco Rendina: Pentru a începe conversația, ne puteți spune exact ce este analiza conținutului imaginii?

Henk Vanstappen: Analiza conținutului imaginilor, cunoscută și sub numele de analiză vizuală, este procesul de extragere a informațiilor din imaginile digitale. Utilizează tehnici și algoritmi sofisticați pentru a analiza diverse aspecte ale unei imagini, cum ar fi obiecte, modele, culori, texturi și forme. Această tehnologie este utilizată în numeroase domenii, de la diagnostic medical la supraveghere video.

MR: Cum este relevant acest lucru pentru sectorul patrimoniului cultural?

HV: În patrimoniul cultural, întâlnim adesea colecții vaste de imagini digitale cu metadate minime despre conținutul lor real. Imaginați-vă o arhivă foto extinsă în care sunt înregistrate doar data și fotograful. Pentru utilizatorul mediu, navigarea și căutarea printr-o astfel de colecție fără informații textuale ar fi o sarcină dificilă. Analiza imaginilor poate automatiza detectarea obiectelor, poate clasifica imaginile în grupuri semnificative (de exemplu, imagini care conțin persoane) și multe altele, făcând aceste colecții mai accesibile. Puteți găsi câteva exemple bune despre ceea ce se poate realiza într-o altă serie de postări de știri pe Europeana Pro.

MR: Înțeleg că a fost dezvoltat un instrument de detectare a obiectelor pentru proiectul AI4Culture - ce ne puteți spune despre el?

HV: Este un instrument de detectare a obiectelor și a subiecților. Detectarea obiectelor identifică obiectele fizice dintr-o imagine, cum ar fi o stație de cale ferată sau o rochie. Detectarea subiectului determină subiectul mai larg, cum ar fi "arhitectura", "traficul" sau "moda". Acest instrument este disponibil în diferite "gusturi" pentru a răspunde diferitelor cazuri de utilizare.

MR: Îmi place această idee a unui instrument digital cu „arome” - îl face să sune foarte abordabil. Care sunt aceste "arome" multiple?

HV: Am dorit să oferim instrumentul cel mai potrivit pentru diferite scenarii. „Aromele” de bază includ un instrument simplu de detectare a obiectelor, de mare viteză, care utilizează modelul MobileNet-SSD v3. Este capabil să recunoască obiecte comune, cum ar fi mașinile, avioanele sau oamenii – ați putea, de exemplu, să îl utilizați pentru a vizualiza colecțiile de imagini pentru a detecta conținutul sensibil la viața privată.

Al doilea instrument ambalat în serviciu utilizează un model sofisticat de IA generativă (Salesforce/blip-vqa-base), care poate înțelege și răspunde la întrebări despre conținutul unei imagini, similar cu modul în care funcționează ChatGPT cu textul. Deși este mai avansată decât versiunea de bază, nu poate identifica locația unui obiect în cadrul imaginii.

Cea de-a treia opțiune din pachet utilizează serviciul Vision al Google, oferind capacități de detectare și mai mari. Cu toate acestea, ca serviciu comercial, necesită un cont de utilizator pe Google Cloud, un serviciu cloud care oferă detectarea obiectelor, făcându-l mai potrivit pentru utilizarea avansată.

MR: Există, de asemenea, un instrument de detectare a culorilor disponibil. Ce face ca analiza culorilor să fie semnificativă?

HV: Culoarea este un aspect crucial al anumitor colecții, cum ar fi cele legate de design și modă. Cu toate acestea, definirea culorilor este un proces extrem de subiectiv. În timp ce ochiul uman poate discerne o bijuterie ca aur sau cupru, un computer o poate percepe pur și simplu ca galbenă. De asemenea, pentru un computer, culorile unei imagini a unei oi într-o pajiște sunt doar "albe" și "verzi". Așa că am făcut algoritmi care pot izola obiectele din fundal și le pot identifica cu precizie culorile.

MR: Acest instrument include și detectarea obiectelor?

HV: Da, este adevărat. În timp ce instrumentul poate izola automat obiecte, utilizatorii pot ajuta, de asemenea, prin specificarea regiunii în care se află un obiect. În acest fel, puteți utiliza ieșirea din instrumentul de detectare a obiectelor pentru a obține culorile mai multor obiecte într-o singură imagine, dacă este prezentă.

MR: Și instrumentul de detectare a obiectelor vine în diferite arome?

HV: Într-adevăr. Prima versiune numără pixelii obiectului detectat, îi grupează în culori și returnează proporția fiecărei culori ca procent. A doua versiune utilizează același model de IA generativă ca și instrumentul de detectare a obiectelor, oferind o interpretare mai umană a culorilor. Cu toate acestea, nu oferă proporții precise de culoare, în schimb returnează un set limitat de trei sau patru culori dominante per obiect.

MR: Asta e destul de cuprinzător. Aceste instrumente generează rezultate numai în limba engleză?

HV: Deloc. Instrumentele oferă, de asemenea, link-uri către Wikidata, o bază extinsă de cunoștințe care alimentează Wikipedia (a se vedea, de exemplu, identificatorul pentru conceptul "îmbrăcăminte"). Acest lucru permite utilizatorilor să acceseze nume de culori și obiecte în aproape orice limbă susținută de Wikidata, sporind accesibilitatea instrumentelor în diverse comunități lingvistice.

MR: Cu o astfel de tehnologie avansată, există preocupări etice cu privire la viitor? Ar putea analiza imaginilor să înlocuiască în cele din urmă experții umani?

HV: În timp ce tehnologia continuă să evolueze și să devină mai sofisticată, este puțin probabil să înlocuiască în întregime expertiza umană în curând. Algoritmii, deși puternici, nu sunt infailibili, la fel cum analiza umană poate fi uneori subiectivă. Cu toate acestea, aceste instrumente bazate pe IA oferă avantaje semnificative: sunt remarcabil de rapizi, consecvenți și de neclintit în concentrarea lor asupra sarcinilor repetitive. În cele din urmă, ele servesc drept complemente valoroase pentru experții umani, permițându-le să își dedice timpul unor eforturi mai nuanțate și creative, valorificând în același timp IA pentru prelucrarea datelor la scară largă.

MR: Cât de dificil este pentru utilizatori să lucreze cu aceste instrumente?

HV: Pentru cei interesați să exploreze capacitățile instrumentelor, am dezvoltat o interfață grafică de bază pentru detecția culorilor și instrumentul de detectare a obiectelor, unde utilizatorii pot introduce adresa URL a unei imagini online și pot testa diferitele arome și setări. Acest instrument bazat pe web nu necesită instalare pe computerul utilizatorului, deși opțiunea de a descărca și rula local este, de asemenea, disponibilă. Cu toate acestea, pentru a integra aceste instrumente în bazele de date existente și pentru a prelucra cantități mari de imagini, va fi necesară o anumită expertiză în materie de programare. Pentru astfel de cazuri de utilizare avansată, am furnizat o documentație cuprinzătoare pe pagina noastră GitHub pentru a ghida dezvoltatorii prin procesul de integrare fără probleme.

Aflați mai multe

În septembrie 2024, proiectul AI4Culture va lansa o platformă în care instrumentele deschise, cum ar fi instrumentele de detectare prezentate mai sus, vor fi puse la dispoziție online, împreună cu documentația și materialele de formare conexe. Urmăriți pagina proiectului de pe Europeana Pro pentru mai multe detalii și rămâneți la curent cu proiectul LinkedIn și contul X!

Instrumentul de detectare a obiectelor și a subiecților este, de asemenea, integrat în platforma de agregare MINT și oferit ca serviciu cu valoare adăugată gata de utilizare utilizatorilor săi. Interfața grafică cu utilizatorul permite utilizatorilor MINT să-și îmbogățească metadatele cu adnotările extrase de instrumentul de analiză a imaginii cu doar câteva clicuri. Dacă sunteți interesat să profitați de această caracteristică MINT nou adăugată, puteți urmări acest tutorial video .

Închideți întâlnirile cu IA: o scufundare profundă în analiza conținutului imaginii

Distribuiți

Aflați mai multe

Descoperiți conținuturi conexe