Bliski susreti s umjetnom inteligencijom: duboko zaroniti u analizu sadržaja slike

Objavljeno 20. lipnja 2024. po

Henk Vanstappen (Datable)

Marco Rendina (European Fashion Heritage Association)

Marco Rendina: Da biste započeli razgovor, možete li nam točno reći koja je analiza sadržaja slike?

Henk Vanstappen: Analiza sadržaja slike, poznata i kao vizualna analiza, proces je izdvajanja informacija iz digitalnih slika. Upotrebljava sofisticirane tehnike i algoritme za analizu različitih aspekata slike, kao što su predmeti, uzorci, boje, teksture i oblici. Ta se tehnologija upotrebljava u brojnim područjima, od medicinske dijagnoze do videonadzora.

MR: Kako je to važno za sektor kulturne baštine?

HV: U kulturnoj baštini često susrećemo ogromne zbirke digitalnih slika s minimalnim metapodacima o njihovom stvarnom sadržaju. Zamislite opsežnu arhivu fotografija gdje se snimaju samo datum i fotograf. Za prosječnog korisnika, navigacija i pretraživanje kroz takvu zbirku bez tekstualnih informacija bio bi težak zadatak. Analiza slika može automatizirati otkrivanje objekata, klasificirati slike u smislene skupine (na primjer, slike koje sadrže ljude) i još mnogo toga, čineći te zbirke dostupnijima. Možete pronaći neke dobre primjere onoga što se može postići u drugoj seriji novinskih objava na Europeana Pro.

MR: Razumijem da je za projekt AI4Culture razvijen alat za otkrivanje predmeta - što nam možete reći o tome?

HV: To je alat za otkrivanje predmeta i predmeta. Otkrivanje objekta identificira fizičke objekte unutar slike, kao što su željeznička stanica ili haljina. Otkrivanje predmeta određuje širi predmet, poput 'arhitekture', 'prometa' ili 'mode'. Ovaj alat je dostupan u različitim 'aromama' kako bi se zadovoljili različiti slučajevi uporabe.

MR: Sviđa mi se ta ideja o digitalnom alatu s „aromama” – čini ga vrlo pristupačnim. Koje su to višestruke "arome"?

HV: Željeli smo pružiti najprikladniji alat za različite scenarije. Osnovni paket „aroma” jednostavan je alat za otkrivanje objekata velike brzine koji upotrebljava model MobileNet-SSD v3. Sposoban je prepoznati uobičajene objekte kao što su automobili, zrakoplovi ili ljudi – možete ga, na primjer, upotrijebiti za pregled zbirki slika kako biste otkrili sadržaj osjetljiv na privatnost.

Drugi alat upakiran u uslugu koristi sofisticirani generativni AI model (Salesforce/blip-vqa-baza) koji može razumjeti i odgovoriti na pitanja o sadržaju slike, slično tome kako ChatGPT funkcionira s tekstom. Iako je naprednija od osnovne verzije, ne može odrediti lokaciju objekta unutar slike.

Treća opcija u paketu koristi Googleovu uslugu Vision, nudeći još veće mogućnosti otkrivanja. Međutim, kao komercijalna usluga, zahtijeva korisnički račun na Google Cloudu, usluzi u oblaku koja nudi otkrivanje predmeta, što ga čini prikladnijim za naprednu upotrebu.

MR: Dostupan je i alat za otkrivanje boja. Što čini analizu boja značajnom?

HV: Boja je ključan aspekt određenih zbirki, kao što su one povezane s dizajnom i modom. Međutim, definiranje boja vrlo je subjektivan proces. Dok ljudsko oko može prepoznati komad nakita kao zlato ili bakar, računalo ga može jednostavno percipirati kao žutu. Također, na računalu, boje slike ovce na livadi su samo "bijele" i "zelene". Tako smo napravili algoritme koji mogu izolirati objekte iz pozadine i točno identificirati njihove boje.

MR: Uključuje li ovaj alat i otkrivanje predmeta?

HV: Da. -Da. Iako alat može automatski izolirati objekte, korisnici također mogu pomoći određivanjem regije u kojoj se objekt nalazi. Na taj način možete iskoristiti izlaz iz alata za otkrivanje objekata kako biste dobili boje više objekata unutar jedne slike, ako postoji.

MR: I dolazi li alat za otkrivanje predmeta u različitim okusima?

HV: Doista. Prva verzija broji piksele otkrivenog objekta, grupira ih u boje i vraća udio svake boje kao postotak. Druga verzija koristi isti generativni AI model kao i alat za otkrivanje objekata, pružajući više ljudsko tumačenje boja. Međutim, ne nudi precizne proporcije boja, već vraća ograničeni skup od tri ili četiri dominantne boje po objektu.

MR: To je vrlo sveobuhvatno. Stvaraju li ovi alati izlaze samo na engleskom jeziku?

HV: Uopće ne. Alati također pružaju poveznice na Wikipodatke, opsežnu bazu znanja koja pokreće Wikipediju (pogledajte, na primjer, identifikator koncepta 'dress'). To korisnicima omogućuje pristup nazivima boja i objekata na gotovo bilo kojem jeziku podržanom Wikipodacima, čime se povećava dostupnost alata u različitim jezičnim zajednicama.

MR: S takvom naprednom tehnologijom, postoje li etičke zabrinutosti u pogledu budućnosti? Može li analiza slika na kraju zamijeniti ljudske stručnjake?

HV: Iako se tehnologija i dalje razvija i postaje sofisticiranija, malo je vjerojatno da će uskoro u potpunosti zamijeniti ljudsku stručnost. Algoritmi, iako moćni, nisu nepogrešivi, baš kao što ljudska analiza ponekad može biti subjektivna. Međutim, ti alati koji se temelje na umjetnoj inteligenciji nude znatne prednosti: iznimno su brzi, dosljedni i nepokolebljivi u svojoj usmjerenosti na zadatke koji se ponavljaju. Naposljetku, oni služe kao vrijedna nadopuna ljudskim stručnjacima, što im omogućuje da svoje vrijeme posvete nijansiranim, kreativnim nastojanjima uz iskorištavanje umjetne inteligencije za obradu podataka velikih razmjera.

MR: Koliko je korisnicima teško raditi s tim alatima?

HV: Za one koji su zainteresirani za istraživanje mogućnosti alata razvili smo osnovno grafičko sučelje za detekciju boja i alat za detekciju objekata, gdje korisnici mogu unijeti URL online slike i testirati različite okuse i postavke. Ovaj internetski alat ne zahtijeva instalaciju na računalo korisnika, iako je dostupna i mogućnost preuzimanja i pokretanja na lokalnoj razini. Međutim, kako bi se ti alati integrirali u postojeće baze podataka i obradile velike količine slika, bit će potrebna određena stručnost u programiranju. Za takve slučajeve napredne uporabe, pružili smo sveobuhvatnu dokumentaciju na našoj GitHub stranici kako bismo besprijekorno usmjeravali programere kroz proces integracije.

Saznajte više

U rujnu 2024. u okviru projekta AI4Culture pokrenut će se platforma na kojoj će otvoreni alati, kao što su prethodno predstavljeni alati za otkrivanje, biti dostupni na internetu, zajedno s povezanom dokumentacijom i materijalima za osposobljavanje. Pratite stranicu projekta na Europeana Pro-u za više detalja i pratite projekt LinkedIn i X račun!

Alat za otkrivanje objekata i predmeta također je integriran u platformu za agregiranje MINT-a i nudi se svojim korisnicima kao gotova usluga s dodanom vrijednošću. Grafičko korisničko sučelje omogućuje korisnicima MINT-a da obogate svoje metapodatke bilješkama iz alata za analizu slika sa samo nekoliko klikova. Ako ste zainteresirani iskoristiti ovu novododanu MINT značajku, možete pratiti ovaj video tutorial.

Bliski susreti s umjetnom inteligencijom: duboko zaroniti u analizu sadržaja slike

Podijeli

Saznajte više

Otkrijte povezani sadržaj