Sulje kohtaamiset tekoälyn kanssa: syvä sukellus kuvasisällön analysointiin

Julkaistu 20. kesäkuuta 2024 by

Henk Vanstappen (Datable)

Marco Rendina (European Fashion Heritage Association)

Marco Rendina: Jos haluat aloittaa keskustelun, voitko kertoa meille tarkalleen, mitä kuvasisältöanalyysi on?

Henk Vanstappen: Kuvasisällön analysointi, joka tunnetaan myös nimellä visuaalinen analyysi, on prosessi, jossa tietoa poimitaan digitaalisista kuvista. Se käyttää hienostuneita tekniikoita ja algoritmeja analysoidakseen kuvan eri näkökohtia, kuten esineitä, kuvioita, värejä, kuvioita ja muotoja. Tätä tekniikkaa käytetään monilla aloilla lääketieteellisestä diagnoosista videovalvontaan.

MR: Miten tämä liittyy kulttuuriperintöalaan?

HV: Kulttuuriperinnössä kohtaamme usein valtavia digitaalisten kuvien kokoelmia, joissa on minimaalinen metatieto niiden todellisesta sisällöstä. Kuvittele laaja valokuva-arkisto, jossa tallennetaan vain päivämäärä ja valokuvaaja. Keskivertokäyttäjälle tällaisen kokoelman selaaminen ja selaaminen ilman tekstitietoja olisi työlästä. Kuva-analyysi voi automatisoida objektien havaitsemisen, luokitella kuvat merkityksellisiin ryhmiin (esimerkiksi ihmisiä sisältävät kuvat) ja paljon muuta, mikä tekee näistä kokoelmista helpommin saatavilla. Hyviä esimerkkejä saavutettavissa olevista asioista löytyy Europeana Pron muista uutisjulkaisuista.

MR: Ymmärrän, että AI4Culture-projektia varten on kehitetty esineentunnistustyökalu - mitä voit kertoa meille siitä?

HV: Se on objektin ja kohteen havaitsemistyökalu. Objektintunnistus tunnistaa kuvassa olevat fyysiset esineet, kuten rautatieaseman tai mekon. Aiheentunnistus määrittää laajemman aiheen, kuten "arkkitehtuurin", "liikenteen" tai "muodin". Tämä työkalu on saatavana eri "makuina", jotka soveltuvat erilaisiin käyttötapauksiin.

MR: Pidän tästä ajatuksesta digitaalisesta työkalusta, jolla on ”makuja” – se saa sen kuulostamaan erittäin helposti lähestyttävältä. Mitä nämä monet "maut" ovat?

HV: Halusimme tarjota sopivimman työkalun erilaisiin skenaarioihin. Perusmakupaketti on nopea ja yksinkertainen esineentunnistustyökalu, jossa käytetään MobileNet-SSD v3 -mallia. Se pystyy tunnistamaan tavallisia esineitä, kuten autoja, lentokoneita tai ihmisiä – sitä voitaisiin käyttää esimerkiksi kuvakokoelmien seulomiseen yksityisyyden kannalta arkaluonteisen sisällön havaitsemiseksi.

Toinen palveluun pakattu työkalu käyttää hienostunutta generatiivista tekoälymallia( Salesforce/blip-vqa-base), joka pystyy ymmärtämään ja vastaamaan kysymyksiin kuvan sisällöstä samalla tavalla kuin ChatGPT toimii tekstin kanssa. Vaikka se on perusversiota edistyneempi, se ei voi paikantaa objektin sijaintia kuvassa.

Paketin kolmas vaihtoehto hyödyntää Googlen Vision-palvelua ja tarjoaa entistä paremmat tunnistusominaisuudet. Kaupallisena palveluna se edellyttää kuitenkin Google Cloud -käyttäjätiliä, pilvipalvelua, joka tarjoaa kohteen havaitsemisen, mikä tekee siitä sopivamman kehittyneeseen käyttöön.

MR: Saatavilla on myös värintunnistustyökalu. Mikä tekee värianalyysistä tärkeää?

HV: Väri on olennainen osa tiettyjä kokoelmia, kuten muotoiluun ja muotiin liittyviä kokoelmia. Värien määrittely on kuitenkin hyvin subjektiivinen prosessi. Vaikka ihmisen silmä voi havaita korun kultana tai kuparina, tietokone voi yksinkertaisesti havaita sen keltaisena. Tietokoneelle lampaan kuvan värit niityllä ovat vain "valkoisia" ja "vihreitä". Joten teimme algoritmeja, jotka voivat eristää kohteet taustasta ja tunnistaa tarkasti niiden värit.

MR: Sisältyykö tähän työkaluun myös objektintunnistus?

HV: Kyllä. Vaikka työkalu voi automaattisesti eristää objektit, käyttäjät voivat myös auttaa määrittämällä alueen, jossa objekti sijaitsee. Näin voit hyödyntää objektintunnistustyökalun tuotosta saadaksesi useiden objektien värit yhteen kuvaan, jos sellainen on.

MR: Tuleeko esineentunnistustyökalusta myös eri makuja?

HV: Itse asiassa. Ensimmäinen versio laskee havaitun kohteen pikselit, ryhmittelee ne väreihin ja palauttaa kunkin värin osuuden prosentteina. Toisessa versiossa käytetään samaa generatiivista tekoälymallia kuin esineentunnistustyökalussa, mikä tarjoaa ihmismäisemmän tulkinnan väreistä. Se ei kuitenkaan tarjoa tarkkoja värisuhteita, vaan palauttaa rajoitetun määrän kolmea tai neljää hallitsevaa väriä kohdetta kohti.

MR: Se on aika kattavaa. Tuottavatko nämä työkalut tuloksia vain englanniksi?

HV: Ei ollenkaan. Työkalut tarjoavat myös linkkejä Wikidataan, joka on Wikipediaa ohjaava laaja tietopohja (ks. esimerkiksi käsitteen "mekko" tunniste). Näin käyttäjät voivat käyttää väri- ja objektinimiä lähes millä tahansa Wikidatan tukemalla kielellä, mikä parantaa työkalujen saavutettavuutta eri kieliyhteisöissä.

MR: Onko tällaisessa kehittyneessä teknologiassa eettisiä huolia tulevaisuudesta? Voisiko kuva-analyysi lopulta korvata ihmisasiantuntijat?

HV: Vaikka teknologia kehittyy edelleen ja tulee kehittyneemmäksi, on epätodennäköistä, että se korvaa kokonaan ihmisen asiantuntemuksen lähiaikoina. Vaikka algoritmit ovat voimakkaita, ne eivät ole erehtymättömiä, aivan kuten ihmisen analyysi voi joskus olla subjektiivinen. Nämä tekoälyyn perustuvat työkalut tarjoavat kuitenkin merkittäviä etuja: ne ovat huomattavan nopeita, johdonmukaisia ja horjumattomia keskittyessään toistuviin tehtäviin. Viime kädessä ne toimivat arvokkaina täydennyksinä ihmisasiantuntijoille, jolloin he voivat käyttää aikansa vivahteikkaampiin ja luovempiin pyrkimyksiin ja hyödyntää tekoälyä laajamittaisessa tietojenkäsittelyssä.

MR: Kuinka vaikeaa käyttäjien on käyttää näitä työkaluja?

HV: Työkalujen ominaisuuksien tutkimisesta kiinnostuneille olemme kehittäneet värintunnistukseen ja kohteentunnistustyökaluun graafisen käyttöliittymän, johon käyttäjät voivat syöttää verkkokuvan URL-osoitteen ja testata erilaisia makuja ja asetuksia. Tämä web-pohjainen työkalu ei vaadi asennusta käyttäjän tietokoneeseen, vaikka mahdollisuus ladata ja suorittaa se paikallisesti on myös saatavilla. Näiden välineiden integroimiseksi olemassa oleviin tietokantoihin ja suurten kuvamäärien käsittelemiseksi tarvitaan kuitenkin jonkin verran ohjelmointiasiantuntemusta. Tällaisissa edistyneissä käyttötapauksissa olemme toimittaneet GitHub-sivullamme kattavan dokumentaation, joka opastaa kehittäjiä integraatioprosessin läpi saumattomasti.

Lue lisää

AI4Culture-hankkeessa käynnistetään syyskuussa 2024 alusta, jolla edellä esitettyjen havaitsemisvälineiden kaltaiset avoimet välineet sekä niihin liittyvä dokumentaatio ja koulutusmateriaali asetetaan saataville verkossa. Seuraa Europeana Pron projektisivua saadaksesi lisätietoja ja pysy ajan tasalla projektin LinkedIn- ja X-tilistä!

Objektin- ja kohteentunnistustyökalu on myös integroitu MINT-aggregointialustaan ja sitä tarjotaan käyttäjilleen käyttövalmiina lisäarvopalveluna. Graafisen käyttöliittymän avulla MINT-käyttäjät voivat rikastaa metatietojaan kuva-analyysityökalun poimimilla merkinnöillä vain muutamalla napsautuksella. Jos olet kiinnostunut hyödyntämään tätä äskettäin lisättyä MINT-ominaisuutta, voit seurata tätä video-opetusohjelmaa.

Sulje kohtaamiset tekoälyn kanssa: syvä sukellus kuvasisällön analysointiin

Jaa

Lue lisää

Tutustu aiheeseen liittyvään sisältöön