Marco Rendina: Lai sāktu sarunu, vai varat mums precīzi pateikt, kāda ir attēla satura analīze?
Henk Vanstappen: Attēlu satura analīze, kas pazīstama arī kā vizuālā analīze, ir informācijas izgūšanas process no digitālajiem attēliem. Tā izmanto sarežģītas metodes un algoritmus, lai analizētu dažādus attēla aspektus, piemēram, objektus, rakstus, krāsas, faktūras un formas. Šī tehnoloģija tiek izmantota daudzās jomās, sākot ar medicīnisko diagnozi un beidzot ar videonovērošanu.
MR: Kā tas ietekmē kultūras mantojuma nozari?
HV: Kultūras mantojuma jomā mēs bieži sastopamies ar plašām digitālo attēlu kolekcijām ar minimāliem metadatiem par to faktisko saturu. Iedomājieties plašu fotoattēlu arhīvu, kurā tiek ierakstīts tikai datums un fotogrāfs. Vidusmēra lietotājam navigācija un meklēšana šādā kolekcijā bez tekstuālas informācijas būtu grūts uzdevums. Attēlu analīze var automatizēt objektu noteikšanu, klasificēt attēlus jēgpilnās grupās (piemēram, attēlus, kas satur cilvēkus) un daudz ko citu, padarot šīs kolekcijas pieejamākas. Jūs varat atrast dažus labus piemērus par to, kas ir sasniedzams citā ziņu sērijā par Europeana Pro.
MR: Es saprotu, ka AI4Culture projektam ir izstrādāts objektu atklāšanas rīks - ko jūs varat mums par to pastāstīt?
HV: Tas ir objekta un objekta noteikšanas rīks. Objektu atklāšana identificē fiziskus objektus attēlā, piemēram, dzelzceļa staciju vai kleitu. Priekšmetu noteikšana nosaka plašāku priekšmetu, piemēram, "arhitektūru", "satiksmi" vai "modi". Šis rīks ir pieejams dažādos "aromātos", lai pielāgotos dažādiem lietošanas gadījumiem.
MR: Man patīk šī ideja par digitālu rīku ar "garšu" - tas padara to ļoti viegli uztveramu. Kādi ir šie daudzie "aromāti"?
HV: Mēs vēlējāmies nodrošināt vispiemērotāko rīku dažādiem scenārijiem. Pamata “aromāts” ir ātrdarbīgs, vienkāršs objektu noteikšanas rīks, kurā izmantots MobileNet-SSD v3 modelis. Tā spēj atpazīt kopīgus objektus, piemēram, automašīnas, lidmašīnas vai cilvēkus — jūs to varētu izmantot, piemēram, lai pārbaudītu attēlu kolekcijas nolūkā atklāt privātumu ietekmējošu saturu.
Otrais rīks, kas iepakots pakalpojumā, izmanto sarežģītu ģeneratīvo MI modeli (Salesforce/blip-vqa-base), kas var saprast un atbildēt uz jautājumiem par attēla saturu, līdzīgi kā ChatGPT darbojas ar tekstu. Lai gan tas ir modernāks par pamata versiju, tas nevar precīzi noteikt objekta atrašanās vietu attēlā.
Trešā iespēja paketē izmanto Google Vision pakalpojumu, piedāvājot vēl lielākas atklāšanas iespējas. Tomēr kā komerciālam pakalpojumam tam ir nepieciešams lietotāja konts Google Cloud, mākoņpakalpojumā, kas piedāvā objektu noteikšanu, padarot to piemērotāku progresīvai lietošanai.
MR: Ir pieejams arī krāsu noteikšanas rīks. Kas padara krāsu analīzi nozīmīgu?
HV: Krāsa ir būtisks aspekts dažās kolekcijās, piemēram, ar dizainu un modi saistītajās kolekcijās. Tomēr krāsu definēšana ir ļoti subjektīvs process. Lai gan cilvēka acs var saskatīt juvelierizstrādājumu kā zeltu vai varu, dators to var vienkārši uztvert kā dzeltenu. Arī datorā aitas attēla krāsas pļavā ir tikai "baltas" un "zaļas". Tāpēc mēs izveidojām algoritmus, kas spēj izolēt objektus no fona un precīzi noteikt to krāsas.
MR: Vai šis rīks ietver arī objektu noteikšanu?
HV: Jā. Lai gan rīks var automātiski izolēt objektus, lietotāji var arī palīdzēt, norādot reģionu, kurā objekts atrodas. Tādā veidā varat izmantot objekta noteikšanas rīka izvadi, lai iegūtu vairāku objektu krāsas vienā attēlā, ja tāds ir.
MR: Un vai objekta noteikšanas rīkam ir arī dažādas garšas?
HV: Patiešām. Pirmajā versijā saskaita konstatētā objekta pikseļus, sagrupē tos krāsās un atgriež katras krāsas proporciju procentos. Otrajā versijā tiek izmantots tas pats ģeneratīvā MI modelis kā objektu noteikšanas rīks, nodrošinot cilvēkam līdzīgāku krāsu interpretāciju. Tomēr tas nepiedāvā precīzas krāsu proporcijas, tā vietā atgriežot ierobežotu trīs vai četru dominējošo krāsu kopumu vienam objektam.
MR: Tas ir diezgan visaptveroši. Vai šie rīki rada rezultātus tikai angļu valodā?
HV: Pavisam ne. Rīki nodrošina arī saites uz Wikidata, plašu zināšanu bāzi, kas darbina Vikipēdiju (sk., piemēram, jēdziena "kleita" identifikatoru). Tas ļauj lietotājiem piekļūt krāsu un objektu nosaukumiem praktiski jebkurā Wikidata atbalstītā valodā, uzlabojot rīku pieejamību dažādās valodu kopienās.
MR: Ar šādu progresīvu tehnoloģiju, vai ir ētiskas bažas par nākotni? Vai attēlu analīze galu galā varētu aizstāt cilvēku ekspertus?
HV: Lai gan tehnoloģija turpina attīstīties un kļūt sarežģītāka, maz ticams, ka tā drīzumā pilnībā aizstās cilvēku zināšanas. Algoritmi, lai arī spēcīgi, nav nekļūdīgi, tāpat kā cilvēka analīze dažreiz var būt subjektīva. Tomēr šie MI virzītie rīki sniedz ievērojamas priekšrocības: tās ir ārkārtīgi ātras, konsekventas un nelokāmas, koncentrējoties uz atkārtotiem uzdevumiem. Galu galā tie ir vērtīgs papildinājums cilvēku ekspertiem, ļaujot viņiem veltīt laiku niansētākiem, radošākiem centieniem, vienlaikus izmantojot MI liela mēroga datu apstrādei.
MR: Cik grūti lietotājiem ir strādāt ar šiem rīkiem?
HV: Tiem, kas vēlas izpētīt rīku iespējas, mēs esam izstrādājuši pamata grafisko saskarni krāsu noteikšanai un objektu noteikšanas rīku, kur lietotāji var ievadīt tiešsaistes attēla URL un pārbaudīt dažādās garšas un iestatījumus. Šim tīmekļa rīkam nav nepieciešama instalēšana lietotāja datorā, lai gan ir pieejama arī iespēja to lejupielādēt un palaist lokāli. Tomēr, lai šos rīkus integrētu esošajās datubāzēs un apstrādātu lielu daudzumu attēlu, būs vajadzīgas dažas programmēšanas zināšanas. Šādiem progresīviem lietošanas gadījumiem mēs esam nodrošinājuši visaptverošu dokumentāciju mūsu GitHub lapā, lai palīdzētu izstrādātājiem nemanāmi izmantot integrācijas procesu.
Uzzināt vairāk
2024. gada septembrī AI4Culture projektā tiks izveidota platforma, kurā tiešsaistē būs pieejami atvērtie rīki, piemēram, iepriekš minētie atklāšanas rīki, kā arī saistītā dokumentācija un mācību materiāli. Sekojiet līdzi projekta lapai Europeana Pro, lai uzzinātu vairāk, un sekojiet līdzi projekta LinkedIn un X kontam!
Objektu un objektu noteikšanas rīks ir integrēts arī MINT apkopošanas platformā un tiek piedāvāts lietotājiem kā lietošanai gatavs pievienotās vērtības pakalpojums. Grafiskā lietotāja saskarne ļauj MINT lietotājiem bagātināt savus metadatus ar anotācijām, ko izgūst attēlu analīzes rīks tikai ar dažiem klikšķiem. Ja vēlaties izmantot šo nesen pievienoto MINT funkciju, varat sekot šai video pamācībai.
