Marco Rendina: Vestluse alustamiseks võite meile täpselt öelda, milline on pildi sisu analüüs?
Henk Vanstappen: Pildi sisu analüüs, tuntud ka kui visuaalne analüüs, on digitaalsetest piltidest teabe ekstraheerimise protsess. See kasutab keerukaid tehnikaid ja algoritme, et analüüsida kujutise erinevaid aspekte, nagu objektid, mustrid, värvid, tekstuurid ja kujundid. Seda tehnoloogiat kasutatakse paljudes valdkondades, alates meditsiinilisest diagnoosist kuni videovalveni.
MR: Kuidas on see kultuuripärandi sektori jaoks oluline?
HV: Kultuuripärandis kohtame sageli tohutuid digikujutiste kogusid, mille tegeliku sisu metaandmed on minimaalsed. Kujutage ette ulatuslikku fotoarhiivi, kuhu salvestatakse ainult kuupäev ja fotograaf. Keskmise kasutaja jaoks oleks sellises kollektsioonis navigeerimine ja otsimine ilma tekstilise teabeta raske ülesanne. Pildianalüüs võib objektide tuvastamist automatiseerida, liigitada pilte mõtestatud rühmadesse (nt inimesi sisaldavad pildid) ja palju muud, muutes need kogud kättesaadavamaks. Mõned head näited selle kohta, mida on võimalik saavutada, leiate teistest Europeana Pro uudistepostitustest.
MR: Saan aru, et projekti AI4Culture jaoks on välja töötatud objektituvastusvahend - mida saate meile selle kohta öelda?
HV: See on objekti ja subjekti tuvastamise tööriist. Objektide tuvastamine tuvastab pildil olevad füüsilised objektid, näiteks raudteejaama või kleidi. Teema tuvastamine määrab laiema teema, nagu "arhitektuur", "liiklus" või "mood". See tööriist on saadaval erinevates "maitsetes", et rahuldada erinevaid kasutusjuhtumeid.
MR: Mulle meeldib see idee, et digitaalsel vahendil on „maitsed“ – see muudab selle väga ligipääsetavaks. Mis on need erinevad "maitsed"?
HV: Soovisime pakkuda kõige sobivamat vahendit erinevate stsenaariumide jaoks. Põhiline „maitse“ hõlmab kiiret ja lihtsat objektide tuvastamise vahendit, mis kasutab MobileNet-SSD v3 mudelit. See suudab ära tunda ühiseid objekte, nagu autod, lennukid või inimesed – seda saab kasutada näiteks pildikogude kuvamiseks, et tuvastada eraelu puutumatuse seisukohast tundlik sisu.
Teine teenusesse pakendatud tööriist kasutab keerukat generatiivset tehisintellekti mudelit (Salesforce/blip-vqa-base), mis suudab mõista ja vastata pildi sisu puudutavatele küsimustele, sarnaselt sellele, kuidas ChatGPT tekstiga töötab. Kuigi see on põhiversioonist arenenum, ei saa see määrata objekti asukohta pildi sees.
Paketi kolmas võimalus võimendab Google'i Visioni teenust, pakkudes veelgi suuremaid tuvastamisvõimalusi. Kuid kommertsteenusena nõuab see kasutajakontot Google Cloudis, pilveteenuses, mis pakub objektide tuvastamist, muutes selle täpsemaks kasutamiseks sobivamaks.
MR: Saadaval on ka värvituvastusvahend. Mis muudab värvianalüüsi oluliseks?
HV: Värv on teatud kollektsioonide, näiteks disaini ja moega seotud kollektsioonide oluline aspekt. Värvide defineerimine on väga subjektiivne protsess. Kuigi inimese silm võib eristada ehteid kullast või vasest, võib arvuti lihtsalt tajuda seda kollasena. Arvuti jaoks on heinamaal oleva lamba kujutise värvid lihtsalt "valge" ja "roheline". Seega tegime algoritme, mis suudavad objekte taustast eraldada ja nende värve täpselt tuvastada.
MR: Kas see tööriist sisaldab ka objektide tuvastamist?
HV: Jah. Kuigi tööriist saab objekte automaatselt isoleerida, saavad kasutajad aidata ka määrates piirkonna, kus objekt asub. Nii saate kasutada objektituvastustööriista väljundit, et saada ühe pildi piires mitme objekti värvid, kui need on olemas.
MR: Ja kas objekti tuvastamise tööriist on ka erineva maitsega?
HV: Tõepoolest. Esimene versioon loendab tuvastatud objekti piksleid, rühmitab need värvideks ja tagastab iga värvi osakaalu protsendina. Teises versioonis kasutatakse sama generatiivset tehisintellekti mudelit kui objektide tuvastamise vahendis, pakkudes värvide inimlikumat tõlgendust. Siiski ei paku see täpseid värvide proportsioone, vaid tagastab piiratud hulga kolme või nelja domineerivat värvi objekti kohta.
MR: See on üsna kõikehõlmav. Kas need tööriistad loovad väljundeid ainult inglise keeles?
HV: Üldsegi mitte. Vahendid pakuvad ka linke Wikidatale, ulatuslikule teadmistebaasile, mis annab Wikipediale volitused (vt näiteks mõiste "kleit" identifikaator). See võimaldab kasutajatel pääseda ligi värvi- ja objektinimedele peaaegu igas Wikidata toetatavas keeles, parandades tööriistade juurdepääsetavust erinevates keelekogukondades.
MR: Kas sellise kõrgtehnoloogia puhul on tuleviku suhtes eetilisi probleeme? Kas pildianalüüs võib lõpuks asendada inimeksperte?
HV: Kuigi tehnoloogia areneb edasi ja muutub keerukamaks, on ebatõenäoline, et see asendaks lähitulevikus täielikult inimeste teadmisi. Algoritmid, kuigi võimsad, ei ole eksimatud, nagu inimanalüüs võib mõnikord olla subjektiivne. Tehisintellektipõhistel vahenditel on aga märkimisväärsed eelised: nad keskenduvad märkimisväärselt kiiresti, järjekindlalt ja vankumatult korduvatele ülesannetele. Lõppkokkuvõttes on need väärtuslikuks täienduseks inimekspertidele, võimaldades neil pühendada oma aega nüansseeritumatele ja loomingulisematele püüdlustele, kasutades samal ajal tehisintellekti suuremahuliseks andmetöötluseks.
MR: Kui raske on kasutajatel nende tööriistadega töötada?
HV: Neile, kes on huvitatud tööriistade võimaluste uurimisest, oleme välja töötanud värvituvastuse ja objektituvastuse tööriista põhilise graafilise liidese, kus kasutajad saavad sisestada veebipildi URL-i ning testida erinevaid maitseid ja seadeid. See veebipõhine tööriist ei vaja installimist kasutaja arvutisse, kuigi saadaval on ka võimalus see kohapeal alla laadida ja käivitada. Nende vahendite integreerimiseks olemasolevatesse andmebaasidesse ja suure hulga piltide töötlemiseks on siiski vaja mõningaid programmeerimisalaseid eksperditeadmisi. Selliste täiustatud kasutusjuhtumite jaoks oleme oma GitHubi lehel esitanud põhjaliku dokumentatsiooni, et juhendada arendajaid sujuvalt integratsiooniprotsessis.
Uuri lähemalt
2024. aasta septembris käivitatakse projektiga AI4Culture platvorm, kus tehakse veebis kättesaadavaks avatud vahendid, nagu eespool esitatud tuvastusvahendid, ning nendega seotud dokumendid ja koolitusmaterjalid. Lisateabe saamiseks jälgige Europeana Pro projekti lehekülge ja jälgige projekti LinkedIn ja X kontot!
Objekti ja subjekti tuvastamise tööriist on integreeritud ka MINTi agregeerimisplatvormi ja seda pakutakse kasutajatele kasutusvalmis lisaväärtusteenusena. Graafiline kasutajaliides võimaldab MINT-i kasutajatel vaid mõne hiireklõpsuga rikastada oma metaandmeid pildianalüüsi tööriistast saadud märkustega. Kui olete huvitatud selle äsja lisatud MINT-funktsiooni kasutamisest, võite järgida seda videoõpetust.
