Marco Rendina: Norėdami pradėti pokalbį, ar galite mums tiksliai pasakyti, kokia yra vaizdo turinio analizė?
Henk Vanstappen: Vaizdo turinio analizė, taip pat žinoma kaip vizualinė analizė, yra informacijos išgavimo iš skaitmeninių vaizdų procesas. Jame naudojami sudėtingi metodai ir algoritmai įvairiems vaizdo aspektams, pavyzdžiui, objektams, raštams, spalvoms, tekstūroms ir formoms, analizuoti. Ši technologija naudojama daugelyje sričių, nuo medicininės diagnozės iki vaizdo stebėjimo.
MR – Kaip tai susiję su kultūros paveldo sektoriumi?
HV: Kultūros paveldo srityje dažnai susiduriame su didelėmis skaitmeninių vaizdų kolekcijomis su minimaliais metaduomenimis apie jų faktinį turinį. Įsivaizduokite platų nuotraukų archyvą, kuriame įrašoma tik data ir fotografas. Paprastam vartotojui naršyti ir ieškoti tokiame rinkinyje be tekstinės informacijos būtų sunki užduotis. Vaizdo analizė gali automatizuoti objektų aptikimą, klasifikuoti vaizdus į prasmingas grupes (pavyzdžiui, vaizdus, kuriuose yra žmonių) ir dar daugiau, todėl šios kolekcijos tampa prieinamesnės. Gerų pavyzdžių apie tai, ką galima pasiekti, galite rasti kitoje „Europeana Pro“ naujienų pranešimų serijoje.
MR – Suprantu, kad "AI4Culture" projektui buvo sukurtas objekto aptikimo įrankis - ką apie tai galite pasakyti?
HV: Tai objekto ir objekto aptikimo įrankis. Objekto aptikimas atvaizde identifikuoja fizinius objektus, pvz., Geležinkelio stotį ar suknelę. Objekto aptikimas nustato platesnį dalyką, pvz., "architektūrą", "eismą" arba "madą". Šis įrankis gali būti įvairių "skonių", kad atitiktų įvairius naudojimo atvejus.
MR – Man patinka ši idėja, kad skaitmeninė priemonė turi „skonių“, todėl ji skamba labai lengvai. Kas yra šie keli "skoniai"?
HV: Norėjome pateikti tinkamiausią priemonę įvairiems scenarijams. Pagrindinis „skonis“ apima didelės spartos paprastą objektų aptikimo priemonę, kurioje naudojamas „MobileNet-SSD v3“ modelis. Jis gali atpažinti įprastus objektus, pvz., automobilius, lėktuvus ar žmones – galite, pvz., jį naudoti atvaizdų kolekcijoms tikrinti, kad aptiktumėte privatumo požiūriu neskelbtiną turinį.
Antrajame paslaugos įrankyje naudojamas sudėtingas generatyvinis DI modelis („Salesforce“/ „blip-vqa-base“),kuris gali suprasti ir atsakyti į klausimus apie vaizdo turinį, panašiai kaip „ChatGPT“ veikia su tekstu. Nors jis yra labiau pažengęs nei pagrindinė versija, jis negali tiksliai nustatyti objekto vietos paveikslėlyje.
Trečioji paketo parinktis naudoja „Google Vision“ paslaugą ir siūlo dar didesnes aptikimo galimybes. Tačiau, kaip komercinė paslauga, jai reikalinga vartotojo paskyra "Google Cloud" - debesies paslauga, siūlanti objektų aptikimą, todėl ji labiau tinka pažangiam naudojimui.
MR – Taip pat yra spalvų aptikimo įrankis. Kuo svarbi spalvų analizė?
HV: Spalva yra esminis tam tikrų kolekcijų, pavyzdžiui, susijusių su dizainu ir mada, aspektas. Tačiau spalvų apibrėžimas yra labai subjektyvus procesas. Nors žmogaus akis gali atskirti papuošalą kaip auksą ar varį, kompiuteris gali tiesiog suvokti jį kaip geltoną. Be to, kompiuteryje pievoje esančios avys atvaizdo spalvos yra tik "baltos" ir "žalios". Taigi mes sukūrėme algoritmus, kurie gali išskirti objektus iš fono ir tiksliai identifikuoti jų spalvas.
MR – Ar šis įrankis taip pat apima objektų aptikimą?
HV: Taip. Nors įrankis gali automatiškai izoliuoti objektus, vartotojai taip pat gali padėti nurodydami regioną, kuriame yra objektas. Tokiu būdu galite panaudoti objekto aptikimo įrankio išvestį, kad gautumėte kelių objektų spalvas viename atvaizde, jei jis yra.
MR – Ir ar objekto aptikimo įrankis taip pat būna skirtingų skonių?
HV: Iš tiesų. Pirmoji versija suskaičiuoja aptikto objekto pikselius, sugrupuoja juos į spalvas ir grąžina kiekvienos spalvos proporciją procentais. Antrojoje versijoje naudojamas tas pats generatyvinio DI modelis kaip ir objekto aptikimo įrankyje, todėl spalvų interpretacija yra labiau panaši į žmogaus. Tačiau ji nesiūlo tikslių spalvų proporcijų, o grąžina ribotą trijų ar keturių dominuojančių spalvų rinkinį vienam objektui.
MR – Tai gana išsami. Ar šie įrankiai generuoja rezultatus tik anglų kalba?
HV: Visiškai ne. Priemonėse taip pat pateikiamos nuorodos į „Wikidata“ – plačią žinių bazę, kuria grindžiama „Wikipedia“ (žr., pvz., sąvokos „adresas“ identifikatorių). Tai leidžia vartotojams pasiekti spalvų ir objektų pavadinimus beveik bet kuria Wikidata palaikoma kalba, pagerinant įrankių prieinamumą įvairiose kalbinėse bendruomenėse.
MR – Su tokiomis pažangiomis technologijomis, ar yra etinių problemų dėl ateities? Ar vaizdo analizė galiausiai galėtų pakeisti žmonių ekspertus?
HV: Nors technologija ir toliau vystosi ir tampa sudėtingesnė, mažai tikėtina, kad netrukus ji visiškai pakeis žmogaus patirtį. Algoritmai, nors ir galingi, nėra neklystantys, lygiai taip pat, kaip žmogaus analizė kartais gali būti subjektyvi. Tačiau šios dirbtiniu intelektu grindžiamos priemonės turi didelių privalumų: jie yra nepaprastai greiti, nuoseklūs ir tvirtai orientuojasi į pasikartojančias užduotis. Galiausiai jie yra vertingas žmogaus ekspertų papildymas, suteikiantis jiems galimybę skirti savo laiką įvairesnėms kūrybinėms pastangoms, kartu panaudojant DI didelio masto duomenų tvarkymui.
MR – Kaip sunku vartotojams dirbti su šiomis priemonėmis?
HV: Tiems, kurie domisi įrankių galimybėmis, sukūrėme pagrindinę grafinę sąsają spalvų aptikimui ir objektų aptikimo įrankiui, kur vartotojai gali įvesti internetinio vaizdo URL ir išbandyti įvairius skonius ir nustatymus. Šis internetinis įrankis nereikalauja diegimo vartotojo kompiuteryje, nors taip pat yra galimybė jį atsisiųsti ir paleisti vietoje. Tačiau siekiant integruoti šias priemones į esamas duomenų bazes ir apdoroti didelius vaizdų kiekius, reikės tam tikros programavimo patirties. Dėl tokių pažangių naudojimo atvejų mes pateikėme išsamią dokumentaciją mūsų "GitHub" puslapyje, kad galėtume sklandžiai nukreipti kūrėjus per integracijos procesą.
Sužinokite daugiau
2024 m. rugsėjo mėn. pagal projektą „AI4Culture“ bus sukurta platforma, kurioje atvirosios priemonės, pavyzdžiui, pirmiau pateiktos aptikimo priemonės, kartu su susijusiais dokumentais ir mokomąja medžiaga bus prieinamos internetu. Daugiau informacijos rasite „Europeana Pro“ projekto puslapyje ir „LinkedIn“ bei „X“ paskyrose!
Objekto ir objekto aptikimo priemonė taip pat integruota į MINT agregavimo platformą ir jos naudotojams siūloma kaip paruošta naudoti pridėtinės vertės paslauga. Grafinė naudotojo sąsaja leidžia MINT naudotojams vos keliais spustelėjimais papildyti savo metaduomenis anotacijomis, gautomis naudojant vaizdų analizės priemonę. Jei norite pasinaudoti šia naujai pridėta funkcija MINT, galite sekti šią mokomąją vaizdo medžiagą.
