Close Encounters met AI: een diepe duik in de analyse van beeldinhoud

Gepubliceerd 20 juni 2024 door

Henk Vanstappen (Datable)

Marco Rendina (European Fashion Heritage Association)

Marco Rendina: Om het gesprek te starten, kun je ons precies vertellen wat beeldinhoudanalyse is?

Henk Vanstappen: Beeldinhoudanalyse, ook wel visuele analyse genoemd, is het proces van het extraheren van informatie uit digitale beelden. Het maakt gebruik van geavanceerde technieken en algoritmen om verschillende aspecten van een beeld te analyseren, zoals objecten, patronen, kleuren, texturen en vormen. Deze technologie wordt op tal van gebieden gebruikt, van medische diagnose tot videobewaking.

MR: Hoe is dit relevant voor de sector cultureel erfgoed?

HV: In cultureel erfgoed komen we vaak enorme collecties digitale beelden tegen met minimale metadata over hun werkelijke inhoud. Stel je een uitgebreid fotoarchief voor waar alleen de datum en fotograaf worden vastgelegd. Voor de gemiddelde gebruiker zou het navigeren en zoeken door een dergelijke verzameling zonder tekstuele informatie een zware taak zijn. Beeldanalyse kan de detectie van objecten automatiseren, afbeeldingen classificeren in zinvolle groepen (bijvoorbeeld afbeeldingen met mensen) en meer, waardoor deze collecties toegankelijker worden. Je kunt een aantal goede voorbeelden vinden van wat haalbaar is in een andere reeks nieuwsberichten over Europeana Pro.

MR: Ik begrijp dat er een objectdetectietool is ontwikkeld voor het AI4Culture-project - wat kunt u ons erover vertellen?

HV: Het is een object- en onderwerpdetectietool. Objectdetectie identificeert fysieke objecten in een afbeelding, zoals een treinstation of een jurk. Onderwerpdetectie bepaalt het bredere onderwerp, zoals 'architectuur', 'verkeer' of 'mode'. Deze tool is beschikbaar in verschillende 'smaken' om tegemoet te komen aan verschillende use cases.

MR: Ik hou van dit idee van een digitaal instrument met “smaken”, waardoor het zeer benaderbaar klinkt. Wat zijn deze verschillende 'smaken'?

HV: We wilden de meest geschikte tool bieden voor verschillende scenario's. De basissmaak bevat een snelle, eenvoudige objectdetectietool die gebruikmaakt van het MobileNet-SSD v3-model. Het is in staat om veelvoorkomende objecten zoals auto’s, vliegtuigen of mensen te herkennen – u kunt het bijvoorbeeld gebruiken om beeldverzamelingen te screenen om privacygevoelige inhoud te detecteren.

De tweede tool die in de service is verpakt, maakt gebruik van een geavanceerd generatief AI-model (Salesforce/blip-vqa-base)dat vragen over de inhoud van een afbeelding kan begrijpen en beantwoorden, vergelijkbaar met hoe ChatGPT werkt met tekst. Hoewel het geavanceerder is dan de basisversie, kan het de locatie van een object in de afbeelding niet lokaliseren.

De derde optie in het pakket maakt gebruik van de Vision-service van Google en biedt nog meer detectiemogelijkheden. Als commerciële service vereist het echter een gebruikersaccount op Google Cloud, een cloudservice die objectdetectie biedt, waardoor het meer geschikt is voor geavanceerd gebruik.

MR: Er is ook een kleurdetectietool beschikbaar. Wat maakt kleuranalyse belangrijk?

HV: Kleur is een cruciaal aspect van bepaalde collecties, zoals die met betrekking tot design en mode. Het definiëren van kleuren is echter een zeer subjectief proces. Terwijl het menselijk oog een sieraad kan onderscheiden als goud of koper, kan een computer het gewoon als geel waarnemen. Ook voor een computer zijn de kleuren van een afbeelding van een schaap in een weide gewoon 'wit' en 'groen'. Dus maakten we algoritmen die objecten van de achtergrond kunnen isoleren en hun kleuren nauwkeurig kunnen identificeren.

MR: Bevat deze tool ook objectdetectie?

HV: Ja, dat is waar. Hoewel de tool objecten automatisch kan isoleren, kunnen gebruikers ook helpen door het gebied op te geven waar een object zich bevindt. Op deze manier kunt u de uitvoer van de objectdetectietool gebruiken om de kleuren van meerdere objecten binnen een enkele afbeelding te verkrijgen, indien aanwezig.

MR: En komt de objectdetectietool ook in verschillende smaken?

HV: Inderdaad. De eerste versie telt de pixels van het gedetecteerde object, groepeert ze in kleuren en retourneert het aandeel van elke kleur als een percentage. De tweede versie maakt gebruik van hetzelfde generatieve AI-model als de objectdetectietool, die een meer menselijke interpretatie van kleuren biedt. Het biedt echter geen precieze kleurverhoudingen, in plaats daarvan retourneert het een beperkte set van drie of vier dominante kleuren per object.

MR: Dat is heel veelomvattend. Genereren deze tools alleen outputs in het Engels?

HV: Helemaal niet. De tools bieden ook links naar Wikidata, een uitgebreide kennisbank die Wikipedia aanstuurt (zie bijvoorbeeld de identifier voor het begrip 'dress'). Hierdoor hebben gebruikers toegang tot kleur- en objectnamen in vrijwel elke taal die door Wikidata wordt ondersteund, waardoor de toegankelijkheid van de tools in verschillende taalgemeenschappen wordt verbeterd.

MR: Zijn er met zo'n geavanceerde technologie ethische zorgen over de toekomst? Kan beeldanalyse uiteindelijk menselijke experts vervangen?

HV: Hoewel de technologie blijft evolueren en geavanceerder wordt, is het onwaarschijnlijk dat het menselijke expertise op korte termijn volledig zal vervangen. Algoritmen, hoewel krachtig, zijn niet onfeilbaar, net zoals menselijke analyse soms subjectief kan zijn. Deze AI-gestuurde tools bieden echter aanzienlijke voordelen: ze zijn opmerkelijk snel, consistent en onwrikbaar in hun focus op repetitieve taken. Uiteindelijk dienen ze als waardevolle aanvulling op menselijke experts, waardoor ze hun tijd kunnen besteden aan meer genuanceerde, creatieve inspanningen en tegelijkertijd AI kunnen gebruiken voor grootschalige gegevensverwerking.

MR: Hoe moeilijk is het voor gebruikers om met deze tools te werken?

HV: Voor degenen die geïnteresseerd zijn in het verkennen van de mogelijkheden van de tools, hebben we een eenvoudige grafische interface ontwikkeld voor de kleurdetectie en de objectdetectietool, waar gebruikers de URL van een online afbeelding kunnen invoeren en de verschillende smaken en instellingen kunnen testen. Deze webgebaseerde tool vereist geen installatie op de computer van de gebruiker, hoewel de optie om het lokaal te downloaden en uit te voeren ook beschikbaar is. Om deze tools in bestaande databases te integreren en grote hoeveelheden afbeeldingen te verwerken, zal echter enige programmeerexpertise nodig zijn. Voor dergelijke geavanceerde use cases hebben we uitgebreide documentatie op onze GitHub-pagina verstrekt om ontwikkelaars naadloos door het integratieproces te begeleiden.

Meer informatie

In september 2024 zal het AI4Culture-project een platform lanceren waar open instrumenten, zoals de hierboven gepresenteerde detectie-instrumenten, online beschikbaar zullen worden gesteld, samen met bijbehorende documentatie en opleidingsmateriaal. Houd de projectpagina op Europeana Pro in de gaten voor meer details en blijf op de hoogte van het project LinkedIn en X account!

De tool voor object- en onderwerpdetectie is ook geïntegreerd in het MINT-aggregatieplatform en wordt aangeboden als een gebruiksklare dienst met toegevoegde waarde voor zijn gebruikers. De grafische gebruikersinterface stelt MINT-gebruikers in staat om hun metadata met slechts een paar klikken te verrijken met de annotaties die door de tool voor beeldanalyse worden geëxtraheerd. Als u geïnteresseerd bent om gebruik te maken van deze nieuw toegevoegde MINT-functie, kunt u deze video-tutorial volgen.

Close Encounters met AI: een diepe duik in de analyse van beeldinhoud

Delen

Meer informatie

Ontdek gerelateerde content