Nära möten med AI: en djupdykning i bildinnehållsanalys

Publicerad 20 juni 2024 av

Henk Vanstappen (Datable)

Marco Rendina (European Fashion Heritage Association)

Marco Rendina: För att starta konversationen, kan du berätta exakt vad bildinnehållsanalys är?

Henk Vanstappen: Bildinnehållsanalys, även känd som visuell analys, är processen att extrahera information från digitala bilder. Den använder sofistikerade tekniker och algoritmer för att analysera olika aspekter av en bild, såsom objekt, mönster, färger, texturer och former. Denna teknik används inom många områden, från medicinsk diagnos till videoövervakning.

MR: Hur är detta relevant för kulturarvssektorn?

HV: I kulturarvet möter vi ofta stora samlingar av digitala bilder med minimal metadata om deras faktiska innehåll. Föreställ dig ett omfattande fotoarkiv där endast datum och fotograf registreras. För den genomsnittliga användaren skulle det vara en svår uppgift att navigera och söka igenom en sådan samling utan textinformation. Bildanalys kan automatisera detektering av objekt, klassificera bilder i meningsfulla grupper (till exempel bilder som innehåller människor) och mer, vilket gör dessa samlingar mer tillgängliga. Du kan hitta några bra exempel på vad som kan uppnås i en annan serie nyhetsinlägg på Europeana Pro.

MR: Jag förstår att ett objektdetekteringsverktyg har utvecklats för AI4Culture-projektet - vad kan du berätta om det?

HV: Det är ett objekt- och ämnesdetekteringsverktyg. Objektdetektering identifierar fysiska objekt i en bild, till exempel en järnvägsstation eller en klänning. Ämnesdetektering bestämmer det bredare ämnet, som "arkitektur", "trafik" eller "mode". Detta verktyg är tillgängligt i olika "smaker" för att tillgodose olika användningsfall.

MR: Jag gillar idén om ett digitalt verktyg med ”smak” – det låter väldigt lättillgängligt. Vilka är dessa "flera smaker"?

HV: Vi ville erbjuda det lämpligaste verktyget för olika scenarier. Den grundläggande ”smaken” paketerar ett snabbt, enkelt objektdetekteringsverktyg som använder MobileNet-SSD v3-modellen. Den kan känna igen vanliga föremål som bilar, flygplan eller människor – du kan till exempel använda den för att visa bildsamlingar för att upptäcka integritetskänsligt innehåll.

Det andra verktyget som paketeras i tjänsten använder en sofistikerad generativ AI-modell (Salesforce/blip-vqa-base)som kan förstå och svara på frågor om en bilds innehåll, liknande hur ChatGPT fungerar med text. Även om den är mer avancerad än den grundläggande versionen kan den inte identifiera ett objekts plats i bilden.

Det tredje alternativet i paketet utnyttjar Googles Vision-tjänst, som erbjuder ännu större detekteringsfunktioner. Men som en kommersiell tjänst kräver den ett användarkonto på Google Cloud, en molntjänst som erbjuder objektdetektering, vilket gör den mer lämpad för avancerad användning.

MR: Det finns också ett färgdetekteringsverktyg tillgängligt. Vad är det som gör färganalysen betydelsefull?

HV: Färg är en avgörande aspekt av vissa kollektioner, till exempel de som är relaterade till design och mode. Att definiera färger är dock en högst subjektiv process. Medan det mänskliga ögat kan urskilja ett smycke som guld eller koppar, kan en dator helt enkelt uppfatta det som gult. För en dator är färgerna på en bild av ett får på en äng bara "vita" och "gröna". Så vi skapade algoritmer som kan isolera objekt från bakgrunden och exakt identifiera deras färger.

MR: Innehåller det här verktyget också objektdetektering?

HV: Ja, det är det. Medan verktyget automatiskt kan isolera objekt kan användarna också hjälpa till genom att ange regionen där ett objekt finns. På så sätt kan du utnyttja utdata från objektdetekteringsverktyget för att få färgerna på flera objekt i en enda bild, om det finns.

MR: Och kommer objektdetekteringsverktyget också i olika smaker?

HV: Ja, det är sant. Den första versionen räknar pixlarna för det detekterade objektet, grupperar dem i färger och returnerar andelen av varje färg i procent. Den andra versionen använder samma generativa AI-modell som objektdetekteringsverktyget, vilket ger en mer mänsklig tolkning av färger. Den erbjuder dock inte exakta färgproportioner, utan returnerar istället en begränsad uppsättning av tre eller fyra dominerande färger per objekt.

MR: Det är ganska omfattande. Skapar dessa verktyg utdata endast på engelska?

HV: Inte alls. Verktygen ger också länkar till Wikidata, en omfattande kunskapsbas som driver Wikipedia (se till exempel identifieraren för begreppet "klänning"). Detta gör det möjligt för användare att komma åt färg- och objektnamn på praktiskt taget alla språk som stöds av Wikidata, vilket förbättrar verktygens tillgänglighet i olika språkgemenskaper.

MR: Med sådan avancerad teknik, finns det etiska bekymmer om framtiden? Kan bildanalys så småningom ersätta mänskliga experter?

HV: Medan tekniken fortsätter att utvecklas och bli mer sofistikerad, är det osannolikt att helt ersätta mänsklig expertis när som helst snart. Algoritmer, även om de är kraftfulla, är inte ofelbara, precis som mänsklig analys ibland kan vara subjektiv. Dessa AI-drivna verktyg erbjuder dock betydande fördelar: De är anmärkningsvärt snabba, konsekventa och orubbliga i sitt fokus på repetitiva uppgifter. I slutändan fungerar de som värdefulla komplement till mänskliga experter, vilket gör det möjligt för dem att ägna sin tid åt mer nyanserade, kreativa ansträngningar och samtidigt utnyttja AI för storskalig databehandling.

MR: Hur svårt är det för användare att arbeta med dessa verktyg?

HV: För dem som är intresserade av att utforska verktygens funktioner har vi utvecklat ett grundläggande grafiskt gränssnitt för färgdetektering och objektdetekteringsverktyget, där användarna kan mata in webbadressen till en onlinebild och testa de olika smakerna och inställningarna. Detta webbaserade verktyg kräver ingen installation på användarens dator, men möjligheten att ladda ner och köra den lokalt är också tillgänglig. För att integrera dessa verktyg i befintliga databaser och bearbeta stora mängder bilder kommer det dock att krävas viss programmeringsexpertis. För sådana avancerade användningsfall har vi tillhandahållit omfattande dokumentation på vår GitHub-sida för att vägleda utvecklare genom integrationsprocessen sömlöst.

Läs mer

I september 2024 kommer AI4Culture-projektet att lansera en plattform där öppna verktyg, såsom de detekteringsverktyg som presenteras ovan, kommer att göras tillgängliga online, tillsammans med tillhörande dokumentation och utbildningsmaterial. Håll ett öga på projektsidan på Europeana Pro för mer information och håll ögonen öppna på projektet LinkedIn och X-konto!

Objekt- och ämnesdetekteringsverktyget är också integrerat i MINT-aggregeringsplattformen och erbjuds som en användbar mervärdestjänst till sina användare. Det grafiska användargränssnittet gör det möjligt för MINT-användare att berika sina metadata med de anteckningar som extraheras av bildanalysverktyget med bara några klick. Om du är intresserad av att dra nytta av denna nyligen tillagda MINT-funktion kan du följa den här videohandledningen.

Nära möten med AI: en djupdykning i bildinnehållsanalys

Dela

Läs mer

Upptäck relaterat innehåll