Marco Rendina: Če želite začeti pogovor, nam lahko natančno poveste, kaj je analiza vsebine slike?
Henk Vanstappen: Analiza slikovne vsebine, znana tudi kot vizualna analiza, je proces pridobivanja informacij iz digitalnih slik. Uporablja napredne tehnike in algoritme za analizo različnih vidikov slike, kot so predmeti, vzorci, barve, teksture in oblike. Ta tehnologija se uporablja na številnih področjih, od medicinske diagnoze do video nadzora.
MR: Kako je to pomembno za sektor kulturne dediščine?
HV: V kulturni dediščini se pogosto srečujemo z obsežnimi zbirkami digitalnih podob z minimalnimi metapodatki o njihovi dejanski vsebini. Predstavljajte si obsežen arhiv fotografij, v katerem sta zabeležena le datum in fotograf. Za povprečnega uporabnika bi bila navigacija in iskanje po taki zbirki brez besedilnih informacij težavna naloga. Analiza slik lahko avtomatizira zaznavanje predmetov, razvrsti slike v smiselne skupine (na primer slike, ki vsebujejo ljudi) in še več, zaradi česar so te zbirke bolj dostopne. Nekaj dobrih primerov tega, kar je mogoče doseči, lahko najdete v drugi seriji objav novic na Europeani Pro.
MR: Razumem, da je bilo orodje za odkrivanje predmetov razvito za projekt AI4Culture - kaj nam lahko poveste o tem?
HV: To je orodje za odkrivanje predmetov in predmetov. Odkrivanje predmetov identificira fizične predmete v sliki, kot je železniška postaja ali obleka. Odkrivanje predmetov določa širšo vsebino, kot so „arhitektura“, „promet“ ali „moda“. To orodje je na voljo v različnih „okusih“ za različne primere uporabe.
MR: Všeč mi je zamisel o digitalnem orodju z „aromami“, zaradi česar zveni zelo dostopno. Kaj so te številne "arome"?
HV: Želeli smo zagotoviti najprimernejše orodje za različne scenarije. Osnovni „okus“ vsebuje hitro in preprosto orodje za zaznavanje predmetov, ki uporablja model MobileNet-SSD v3. Sposoben je prepoznati običajne predmete, kot so avtomobili, letala ali ljudje – lahko ga na primer uporabite za pregledovanje zbirk slik, da odkrijete vsebino, ki je občutljiva na zasebnost.
Drugo orodje, pakirano v storitvi, uporablja prefinjen model generativne umetne inteligence (Salesforce / blip-vqa-base), ki lahko razume in odgovarja na vprašanja o vsebini slike, podobno kot deluje ChatGPT z besedilom. Čeprav je naprednejša od osnovne različice, ne more določiti lokacije predmeta v sliki.
Tretja možnost v paketu izkorišča Googlovo storitev Vision, ki ponuja še večje zmogljivosti zaznavanja. Vendar pa kot komercialna storitev zahteva uporabniški račun v storitvi Google Cloud, storitvi v oblaku, ki ponuja zaznavanje predmetov, zaradi česar je primernejša za napredno uporabo.
MR: Na voljo je tudi orodje za zaznavanje barv. Kaj naredi barvno analizo pomembno?
HV: Barva je ključni vidik nekaterih zbirk, kot so tiste, povezane z oblikovanjem in modo. Vendar pa je določanje barv zelo subjektiven proces. Medtem ko človeško oko lahko zazna kos nakita kot zlato ali baker, ga lahko računalnik preprosto zazna kot rumeno. Tudi za računalnik so barve podobe ovce na travniku samo "bele" in "zelene". Tako smo izdelali algoritme, ki lahko izolirajo predmete iz ozadja in natančno identificirajo njihove barve.
MR: Ali to orodje vključuje tudi zaznavanje predmetov?
HV: Ja. -Ja. Medtem ko lahko orodje samodejno izolira predmete, lahko uporabniki pomagajo tudi z določitvijo območja, kjer je predmet. Na ta način lahko izkoristite izhod iz orodja za zaznavanje predmetov, da pridobite barve več predmetov znotraj ene slike, če je prisotna.
MR: Ali ima orodje za zaznavanje predmetov tudi različne okuse?
HV: Pravzaprav. Prva različica prešteje slikovne pike zaznanega predmeta, jih razvrsti v barve in vrne delež vsake barve kot odstotek. Druga različica uporablja isti generativni model umetne inteligence kot orodje za odkrivanje predmetov, kar zagotavlja bolj človeško interpretacijo barv. Vendar pa ne ponuja natančnih barvnih razmerij, temveč vrača omejen nabor treh ali štirih prevladujočih barv na predmet.
MR: To je zelo vsestransko. Ali ta orodja ustvarjajo izhode samo v angleščini?
HV: Sploh ne. Orodja zagotavljajo tudi povezave do Wikipodatkov, obsežne baze znanja, ki poganja Wikipedijo (glej na primer identifikator pojma "naslov"). To uporabnikom omogoča dostop do imen barv in predmetov v skoraj katerem koli jeziku, ki ga podpirajo Wikipodatki, s čimer se izboljša dostopnost orodij v različnih jezikovnih skupnostih.
MR: Ali s tako napredno tehnologijo obstajajo etični pomisleki glede prihodnosti? Ali lahko analiza slik sčasoma nadomesti človeške strokovnjake?
HV: Medtem ko se tehnologija še naprej razvija in postaja bolj sofisticirana, je malo verjetno, da bo kmalu v celoti nadomestila človeško strokovno znanje. Algoritmi, čeprav močni, niso nezmotljivi, tako kot je lahko človeška analiza včasih subjektivna. Vendar imajo ta orodja, ki temeljijo na umetni inteligenci, pomembne prednosti: so izjemno hitri, dosledni in neomajni pri osredotočanju na ponavljajoče se naloge. Navsezadnje so dragoceno dopolnilo človeškim strokovnjakom, saj jim omogočajo, da svoj čas posvetijo bolj raznolikim in ustvarjalnim prizadevanjem, hkrati pa umetno inteligenco izkoristijo za obsežno obdelavo podatkov.
MR: Kako težko je uporabnikom uporabljati ta orodja?
HV: Za tiste, ki jih zanima raziskovanje zmožnosti orodij, smo razvili osnovni grafični vmesnik za zaznavanje barv in orodje za zaznavanje predmetov, kjer lahko uporabniki vnesejo URL spletne slike in preizkusijo različne okuse in nastavitve. To spletno orodje ne zahteva namestitve v uporabnikov računalnik, na voljo pa je tudi možnost lokalnega prenosa in zagona. Vendar bo za vključitev teh orodij v obstoječe podatkovne zbirke in obdelavo velikih količin slik potrebno določeno strokovno znanje na področju programiranja. Za takšne napredne primere uporabe smo na naši strani GitHub zagotovili celovito dokumentacijo, ki razvijalce brezhibno vodi skozi proces integracije.
Izvedite več
Septembra 2024 bo v okviru projekta AI4Culture vzpostavljena platforma, na kateri bodo na spletu na voljo odprta orodja, kot so zgoraj predstavljena orodja za odkrivanje, skupaj s povezano dokumentacijo in gradivom za usposabljanje. Bodite pozorni na stran projekta na Europeana Pro za več podrobnosti in ostanite na tekočem s projektom LinkedIn in X račun!
Orodje za zaznavanje predmetov in subjektov je integrirano tudi v platformo za združevanje MINT in je uporabnikom na voljo kot storitev z dodano vrednostjo, ki je pripravljena za uporabo. Grafični uporabniški vmesnik omogoča uporabnikom MINT, da obogatijo svoje metapodatke z opombami, pridobljenimi z orodjem za analizo slik z le nekaj kliki. Če želite izkoristiti to novo dodano funkcijo MINT, lahko sledite tej video vadnici.
