Találkozások a mesterséges intelligenciával: mély merülés a képtartalom-elemzésben

Közzétéve 2024. június 20. Szerző:

Henk Vanstappen (Datable)

Marco Rendina (European Fashion Heritage Association)

Marco Rendina: Ahhoz, hogy elindítsa a beszélgetést, meg tudja mondani nekünk, hogy pontosan mi a képtartalom-elemzés?

Henk Vanstappen: A képtartalom-elemzés, más néven vizuális elemzés, a digitális képekből származó információk kinyerésének folyamata. Kifinomult technikákat és algoritmusokat alkalmaz a kép különböző aspektusainak, például tárgyaknak, mintáknak, színeknek, textúráknak és formáknak az elemzésére. Ezt a technológiát számos területen alkalmazzák, az orvosi diagnózistól a videokamerás megfigyelésig.

MR: Hogyan érinti ez a kulturális örökség ágazatát?

HV: A kulturális örökségben gyakran találkozunk digitális képek hatalmas gyűjteményeivel, amelyek minimális metaadatokkal rendelkeznek a tényleges tartalmukról. Képzeljünk el egy kiterjedt fotóarchívumot, ahol csak a dátumot és a fotóst rögzítik. Az átlagos felhasználó számára egy ilyen gyűjteményben való navigálás és keresés szöveges információk nélkül nehéz feladat lenne. A képelemzés automatizálhatja az objektumok észlelését, a képeket értelmes csoportokba (például embereket tartalmazó képekbe) sorolhatja, és így könnyebben hozzáférhetővé teheti ezeket a gyűjteményeket. Néhány jó példát találhat arra, hogy mi érhető el az Europeana Pro egy másik hírsorozatában.

MR: Megértem, hogy az AI4Culture projekthez kifejlesztettek egy tárgyfelismerő eszközt - mit tud mondani róla?

HV: Ez egy tárgy- és tárgyfelismerő eszköz. Az objektumfelismerés azonosítja a képen belüli fizikai tárgyakat, például a vasútállomást vagy a ruhát. A témafelismerés meghatározza a szélesebb tárgykört, mint például az "építészet", a "forgalom" vagy a "divat". Ez az eszköz különböző "ízekben" áll rendelkezésre a különböző felhasználási esetek kielégítésére.

MR: Tetszik ez az ötlet, hogy egy digitális eszköznek „ízei” vannak – ez nagyon megközelíthetővé teszi. Mik ezek a többszörös "ízek"?

HV: A különböző forgatókönyvekhez a legmegfelelőbb eszközt akartuk biztosítani. Az alapvető „íz” egy nagy sebességű, egyszerű tárgyfelismerő eszközt tartalmaz, amely a MobileNet-SSD v3 modellt használja. Képes felismerni a gyakori tárgyakat, például az autókat, a repülőgépeket vagy az embereket – például képgyűjtemények szűrésére használhatja a magánélet szempontjából érzékeny tartalmak észlelése érdekében.

A szolgáltatás részét képező második eszköz kifinomult generatív MI-modellt (Salesforce/blip-vqa-base)alkalmaz, amely képes megérteni és megválaszolni a kép tartalmával kapcsolatos kérdéseket, hasonlóan ahhoz, ahogyan a ChatGPT működik a szöveggel. Bár fejlettebb, mint az alapverzió, nem tudja meghatározni az objektum helyét a képen belül.

A csomag harmadik opciója kihasználja a Google Vision szolgáltatását, amely még nagyobb észlelési képességeket kínál. Kereskedelmi szolgáltatásként azonban felhasználói fiókot igényel a Google Cloud-on, egy felhőszolgáltatás, amely objektumfelismerést kínál, így alkalmasabb a fejlett használatra.

MR: Színészlelő eszköz is rendelkezésre áll. Mi teszi a színelemzést jelentőssé?

HV: A szín bizonyos gyűjtemények, például a formatervezéssel és a divattal kapcsolatos gyűjtemények kulcsfontosságú szempontja. A színek meghatározása azonban rendkívül szubjektív folyamat. Míg az emberi szem képes felismerni egy ékszert, mint aranyat vagy rezet, a számítógép egyszerűen sárgaként érzékelheti. Továbbá egy számítógép számára a réten lévő bárány képének színei csak "fehérek" és "zöldek". Így olyan algoritmusokat készítettünk, amelyek képesek elkülöníteni a tárgyakat a háttértől, és pontosan azonosítani a színüket.

MR: Ez az eszköz magában foglalja az objektumfelismerést is?

HV: Igen, így van. Míg az eszköz automatikusan képes elkülöníteni az objektumokat, a felhasználók segítséget nyújthatnak annak a régiónak a megadásával is, ahol az objektum található. Ily módon kihasználhatja az objektumérzékelő eszköz kimenetét, hogy több objektum színét kapja meg egy képen belül, ha van ilyen.

MR: És a tárgyfelismerő eszköz is különböző ízekben érkezik?

HV: Valóban. Az első verzió megszámolja az észlelt objektum képpontjait, színekre csoportosítja őket, és az egyes színek százalékos arányát adja vissza. A második verzió ugyanazt a generatív AI modellt használja, mint az objektumérzékelő eszköz, amely emberszerűbb színértelmezést biztosít. Azonban nem kínál pontos színarányokat, hanem objektumonként három vagy négy domináns színből álló korlátozott készletet ad vissza.

MR: Ez elég átfogó. Ezek az eszközök csak angol nyelven generálnak kimeneteket?

HV: Egyáltalán nem. Az eszközök linkeket is biztosítanak a Wikidatához, egy kiterjedt tudásbázishoz, amely a Wikipédiát működteti (lásd például a "ruha" fogalmának azonosítóját). Ez lehetővé teszi a felhasználók számára, hogy a Wikidata által támogatott bármely nyelven hozzáférjenek a szín- és objektumnevekhez, javítva az eszközök hozzáférhetőségét a különböző nyelvi közösségekben.

MR: Ilyen fejlett technológiával vannak etikai aggályok a jövőt illetően? Lehet, hogy a képelemzés végül helyettesíti az emberi szakértőket?

HV: Bár a technológia folyamatosan fejlődik és egyre kifinomultabbá válik, nem valószínű, hogy hamarosan teljesen felváltja az emberi szakértelmet. Az algoritmusok, bár erőteljesek, nem tévedhetetlenek, mint ahogy az emberi elemzés néha szubjektív lehet. Ezek a mesterséges intelligencián alapuló eszközök azonban jelentős előnyökkel járnak: figyelemre méltóan gyorsak, következetesek és rendíthetetlenek az ismétlődő feladatokra való összpontosításban. Végső soron értékes kiegészítői az emberi szakértőknek, lehetővé téve számukra, hogy idejüket árnyaltabb, kreatívabb törekvéseknek szenteljék, miközben a mesterséges intelligenciát nagy léptékű adatfeldolgozásra használják fel.

MR: Mennyire nehéz a felhasználóknak ezekkel az eszközökkel dolgozni?

HV: Az eszközök képességeinek feltárása iránt érdeklődők számára kifejlesztettünk egy alapvető grafikus felületet a színfelismeréshez és az objektumfelismerő eszközhöz, ahol a felhasználók megadhatják egy online kép URL-jét, és tesztelhetik a különböző ízeket és beállításokat. Ez a webalapú eszköz nem igényel telepítést a felhasználó számítógépén, bár a helyi letöltés és futtatás lehetősége is elérhető. Ahhoz azonban, hogy ezeket az eszközöket integrálni lehessen a meglévő adatbázisokba, és nagy mennyiségű képet lehessen feldolgozni, programozási szakértelemre lesz szükség. Az ilyen fejlett felhasználási esetekhez átfogó dokumentációt biztosítunk a GitHub oldalunkon, hogy a fejlesztőket zökkenőmentesen végigvezessük az integrációs folyamaton.

Tudjon meg többet

2024 szeptemberében az AI4Culture projekt elindít egy platformot, ahol a fent bemutatott felderítési eszközökhöz hasonló nyílt eszközöket, valamint a kapcsolódó dokumentációt és képzési anyagokat online elérhetővé teszik. Tartsa szemmel az Europeana Pro projektoldalát a további részletekért, és tartsa a kapcsolatot a projekt LinkedIn és X fiókjával!

Az objektum- és tárgyfelismerő eszköz a MINT aggregációs platformba is integrálva van, és használatra kész értéknövelt szolgáltatásként áll a felhasználók rendelkezésére. A grafikus felhasználói felület lehetővé teszi a MINT felhasználók számára, hogy néhány kattintással gazdagítsák metaadataikat a képelemző eszköz által kivont jegyzetekkel. Ha érdekli, hogy kihasználja ezt az újonnan hozzáadott MINT funkciót, kövesse ezt a videó bemutatót.

Találkozások a mesterséges intelligenciával: mély merülés a képtartalom-elemzésben

Megosztás

Tudjon meg többet

Fedezze fel a kapcsolódó tartalmakat