Tæt møder med AI: et dybt dyk i billedindholdsanalyse

Offentliggjort 20. juni 2024 ved

Henk Vanstappen (Datable)

Marco Rendina (European Fashion Heritage Association)

Marco Rendina: For at kickstarte samtalen, kan du fortælle os præcis, hvad billedindholdsanalyse er?

Henk Vanstappen: Billedindholdsanalyse, også kendt som visuel analyse, er processen med at udtrække information fra digitale billeder. Det anvender sofistikerede teknikker og algoritmer til at analysere forskellige aspekter af et billede, såsom objekter, mønstre, farver, teksturer og former. Denne teknologi bliver brugt på tværs af mange domæner, fra medicinsk diagnose til videoovervågning.

MR: Hvordan er det relevant for kulturarvssektoren?

HV: I kulturarven møder vi ofte store samlinger af digitale billeder med minimale metadata om deres faktiske indhold. Forestil dig et omfattende fotoarkiv, hvor kun dato og fotograf er optaget. For den gennemsnitlige bruger ville det være en vanskelig opgave at navigere og søge gennem en sådan samling uden tekstoplysninger. Billedanalyse kan automatisere registrering af objekter, klassificere billeder i meningsfulde grupper (for eksempel billeder, der indeholder mennesker) og mere, hvilket gør disse samlinger mere tilgængelige. Du kan finde nogle gode eksempler på, hvad der er opnåeligt i en anden række nyhedsindlæg på Europeana Pro.

MR: Jeg forstår, at der er udviklet et objektdetekteringsværktøj til AI4Culture-projektet - hvad kan du fortælle os om det?

HV: Det er et objekt- og emnedetekteringsværktøj. Objektdetektion identificerer fysiske objekter i et billede, f.eks. en banegård eller en kjole. Emnedetektering bestemmer det bredere emne, som 'arkitektur', 'trafik' eller 'mode.' Dette værktøj er tilgængeligt i forskellige 'smag' for at imødekomme forskellige use cases.

MR: Jeg kan godt lide idéen om et digitalt værktøj med "smag" – det får det til at lyde meget tilgængeligt. Hvad er disse mange "smagsstoffer"?

HV: Vi ønskede at levere det mest egnede værktøj til forskellige scenarier. Den grundlæggende "smag" omfatter et hurtigt og enkelt objektdetekteringsværktøj, der bruger MobileNet-SSD v3-modellen. Det er i stand til at genkende almindelige genstande som biler, fly eller mennesker – du kan f.eks. bruge det til at screene billedsamlinger for at opdage indhold, der er følsomt over for privatlivets fred.

Det andet værktøj, der er pakket i tjenesten, anvender en sofistikeret generativ AI-model (Salesforce/blip-vqa-base),der kan forstå og besvare spørgsmål om et billedes indhold, svarende til, hvordan ChatGPT fungerer med tekst. Selvom den er mere avanceret end den grundlæggende version, kan den ikke lokalisere et objekts placering i billedet.

Den tredje mulighed i pakken udnytter Googles Vision-tjeneste og tilbyder endnu større detektionsmuligheder. Men som en kommerciel tjeneste kræver det en brugerkonto på Google Cloud, en skytjeneste, der tilbyder objektdetektion, hvilket gør den mere velegnet til avanceret brug.

MR: Der er også et farvedetekteringsværktøj til rådighed. Hvad gør farveanalyse vigtig?

HV: Farver er et afgørende aspekt i visse kollektioner, f.eks. i forbindelse med design og mode. Men at definere farver er en meget subjektiv proces. Mens det menneskelige øje kan skelne et smykke som guld eller kobber, kan en computer simpelthen opfatte det som gult. For en computer er farverne på et billede af et får på en eng også bare 'hvide' og 'grønne'. Så vi lavede algoritmer, der kan isolere objekter fra baggrunden og præcist identificere deres farver.

MR: Indeholder dette værktøj også objektdetektion?

HV: Ja, det er rigtigt. Mens værktøjet automatisk kan isolere objekter, kan brugerne også hjælpe ved at angive det område, hvor et objekt er placeret. På denne måde kan du udnytte outputtet fra objektdetektionsværktøjet til at opnå farverne på flere objekter i et enkelt billede, hvis det er til stede.

MR: Og kommer objektdetekteringsværktøjet også i forskellige smagsvarianter?

HV: Faktisk. Den første version tæller pixels af det detekterede objekt, grupperer dem i farver og returnerer andelen af hver farve som en procentdel. Den anden version bruger den samme generative AI-model som objektdetektionsværktøjet, hvilket giver en mere menneskelignende fortolkning af farver. Det giver dog ikke præcise farveforhold, men returnerer i stedet et begrænset sæt af tre eller fire dominerende farver pr. objekt.

MR: Det er ret omfattende. Genererer disse værktøjer kun output på engelsk?

HV: Slet ikke. Værktøjerne giver også links til Wikidata, en omfattende vidensbase, der driver Wikipedia (se for eksempel identifikatoren for begrebet 'adresse'). Dette giver brugerne mulighed for at få adgang til farve- og objektnavne på stort set alle sprog, der understøttes af Wikidata, hvilket forbedrer værktøjernes tilgængelighed på tværs af forskellige sprogsamfund.

MR: Med sådan avanceret teknologi, er der etiske bekymringer om fremtiden? Kunne billedanalyse i sidste ende erstatte menneskelige eksperter?

HV: Mens teknologien fortsætter med at udvikle sig og blive mere sofistikeret, er det usandsynligt, at den helt erstatter menneskelig ekspertise når som helst snart. Algoritmer, selvom de er kraftfulde, er ikke ufejlbarlige, ligesom menneskelig analyse nogle gange kan være subjektiv. Disse AI-drevne værktøjer giver imidlertid betydelige fordele: De er bemærkelsesværdigt hurtige, konsekvente og urokkelige i deres fokus på gentagne opgaver. I sidste ende tjener de som værdifulde supplementer til menneskelige eksperter, der gør det muligt for dem at dedikere deres tid til mere nuancerede, kreative bestræbelser, samtidig med at de udnytter kunstig intelligens til databehandling i stor skala.

MR: Hvor svært er det for brugerne at arbejde med disse værktøjer?

HV: For dem, der er interesserede i at udforske værktøjernes muligheder, har vi udviklet en grundlæggende grafisk grænseflade til farvedetekteringsværktøjet og objektdetekteringsværktøjet, hvor brugerne kan indtaste webadressen på et onlinebillede og teste de forskellige smage og indstillinger. Dette webbaserede værktøj kræver ingen installation på brugerens computer, selvom muligheden for at downloade og køre det lokalt også er tilgængelig. For at integrere disse værktøjer i eksisterende databaser og behandle store mængder billeder vil det imidlertid være nødvendigt med en vis programmeringsekspertise. For sådanne avancerede brugstilfælde har vi leveret omfattende dokumentation på vores GitHub-side for at guide udviklere gennem integrationsprocessen problemfrit.

Læs mere

I september 2024 vil AI4Culture-projektet lancere en platform, hvor åbne værktøjer såsom ovennævnte detektionsværktøjer vil blive gjort tilgængelige online sammen med tilhørende dokumentation og undervisningsmateriale. Hold øje med projektsiden på Europeana Pro for flere detaljer og hold øje med projektet LinkedIn og X konto!

Objekt- og emnedetekteringsværktøjet er også integreret i MINT-aggregationsplatformen og tilbydes som en brugsklar merværditjeneste til brugerne. Den grafiske brugergrænseflade gør det muligt for MINT-brugere at berige deres metadata med de anmærkninger, der udtrækkes af billedanalyseværktøjet med blot et par klik. Hvis du er interesseret i at drage fordel af denne nyligt tilføjede MINT-funktion, kan du følge denne videovejledning.

Tæt møder med AI: et dybt dyk i billedindholdsanalyse

Del

Læs mere

Opdag relateret indhold