Enge Begegnungen mit KI: Ein tiefer Einblick in die Bildinhaltsanalyse

Veröffentlicht 20. Juni 2024 von

Henk Vanstappen (Datable)

Marco Rendina (European Fashion Heritage Association)

Marco Rendina: Um das Gespräch zu beginnen, können Sie uns genau sagen, was Bildinhaltsanalyse ist?

Henk Vanstappen: Bildinhaltsanalyse, auch als visuelle Analyse bekannt, ist der Prozess der Extraktion von Informationen aus digitalen Bildern. Es verwendet ausgeklügelte Techniken und Algorithmen, um verschiedene Aspekte eines Bildes wie Objekte, Muster, Farben, Texturen und Formen zu analysieren. Diese Technologie wird in zahlreichen Bereichen eingesetzt, von der medizinischen Diagnose bis zur Videoüberwachung.

MR: Inwiefern ist dies für den Kulturerbesektor relevant?

HV: Im kulturellen Erbe stoßen wir oft auf riesige Sammlungen digitaler Bilder mit minimalen Metadaten über ihren tatsächlichen Inhalt. Stellen Sie sich ein umfangreiches Fotoarchiv vor, in dem nur das Datum und der Fotograf aufgezeichnet werden. Für den durchschnittlichen Benutzer wäre das Navigieren und Durchsuchen einer solchen Sammlung ohne Textinformationen eine mühsame Aufgabe. Die Bildanalyse kann die Erkennung von Objekten automatisieren, Bilder in aussagekräftige Gruppen (zum Beispiel Bilder mit Personen) und vieles mehr einteilen und diese Sammlungen zugänglicher machen. Sie können einige gute Beispiele dafür finden, was in einer anderen Reihe von Nachrichtenbeiträgen auf Europeana Pro erreichbar ist.

MR: Ich verstehe, dass für das AI4Culture-Projekt ein Objekterkennungstool entwickelt wurde - was können Sie uns dazu sagen?

HV: Es ist ein Objekt- und Subjekterkennungswerkzeug. Objekterkennung identifiziert physische Objekte innerhalb eines Bildes, wie einen Bahnhof oder ein Kleid. Die Objekterkennung bestimmt das breitere Thema, wie "Architektur", "Verkehr" oder "Mode". Dieses Tool ist in verschiedenen "Geschmacksrichtungen" verfügbar, um verschiedenen Anwendungsfällen gerecht zu werden.

MR: Mir gefällt diese Idee eines digitalen Tools mit „Geschmack“ - sie klingt sehr ansprechbar. Was sind diese vielfältigen "Geschmacksrichtungen"?

HV: Wir wollten das am besten geeignete Werkzeug für verschiedene Szenarien bereitstellen. Der grundlegende „Geschmack“ umfasst ein schnelles, einfaches Objekterkennungstool, das das Modell MobileNet-SSD v3 verwendet. Es ist in der Lage, gängige Objekte wie Autos, Flugzeuge oder Menschen zu erkennen – Sie könnten es beispielsweise verwenden, um Bildsammlungen zu überprüfen, um datenschutzrelevante Inhalte zu erkennen.

Das zweite Tool, das im Service enthalten ist, verwendet ein ausgeklügeltes generatives KI-Modell(Salesforce / blip-vqa-base),das Fragen zum Inhalt eines Bildes verstehen und beantworten kann, ähnlich wie ChatGPT mit Text arbeitet. Obwohl es weiter fortgeschritten ist als die Basisversion, kann es die Position eines Objekts im Bild nicht lokalisieren.

Die dritte Option des Pakets nutzt den Vision-Dienst von Google und bietet noch mehr Erkennungsmöglichkeiten. Als kommerzieller Dienst erfordert er jedoch ein Benutzerkonto in der Google Cloud, einem Cloud-Dienst, der Objekterkennung anbietet, wodurch er besser für den fortgeschrittenen Einsatz geeignet ist.

MR: Es steht auch ein Farberkennungstool zur Verfügung. Was macht die Farbanalyse aus?

HV: Farbe ist ein entscheidender Aspekt bestimmter Kollektionen, beispielsweise in Bezug auf Design und Mode. Die Definition von Farben ist jedoch ein sehr subjektiver Prozess. Während das menschliche Auge ein Schmuckstück als Gold oder Kupfer erkennen kann, kann ein Computer es einfach als gelb wahrnehmen. Auch für einen Computer sind die Farben eines Bildes eines Schafes auf einer Wiese nur "weiß" und "grün". So haben wir Algorithmen entwickelt, die Objekte vom Hintergrund isolieren und ihre Farben genau identifizieren können.

MR: Verfügt dieses Tool auch über Objekterkennung?

HV: Ja. Während das Tool Objekte automatisch isolieren kann, können Benutzer auch helfen, indem sie die Region angeben, in der sich ein Objekt befindet. Auf diese Weise können Sie die Ausgabe des Objekterkennungstools nutzen, um die Farben mehrerer Objekte innerhalb eines einzelnen Bildes zu erhalten, falls vorhanden.

MR: Und gibt es das Objekterkennungstool auch in verschiedenen Geschmacksrichtungen?

HV: In der Tat. Die erste Version zählt die Pixel des erkannten Objekts, gruppiert sie in Farben und gibt den Anteil jeder Farbe als Prozentsatz zurück. Die zweite Version verwendet das gleiche generative KI-Modell wie das Objekterkennungswerkzeug und bietet eine menschlichere Interpretation von Farben. Es bietet jedoch keine genauen Farbproportionen, sondern einen begrenzten Satz von drei oder vier dominanten Farben pro Objekt.

MR: Das ist ziemlich umfassend. Generieren diese Tools Outputs nur auf Englisch?

HV: Überhaupt nicht. Die Tools bieten auch Links zu Wikidata, einer umfangreichen Wissensdatenbank, die Wikipedia unterstützt (siehe zum Beispiel die Kennung für das Konzept "Kleid"). Auf diese Weise können Benutzer auf Farb- und Objektnamen in praktisch jeder von Wikidata unterstützten Sprache zugreifen und die Zugänglichkeit der Tools in verschiedenen Sprachgemeinschaften verbessern.

MR: Gibt es angesichts dieser fortschrittlichen Technologie ethische Bedenken in Bezug auf die Zukunft? Könnte die Bildanalyse schließlich menschliche Experten ersetzen?

HV: Während sich die Technologie weiterentwickelt und immer ausgefeilter wird, ist es unwahrscheinlich, dass sie menschliches Fachwissen in absehbarer Zeit vollständig ersetzen wird. Algorithmen sind zwar mächtig, aber nicht unfehlbar, genauso wie die menschliche Analyse manchmal subjektiv sein kann. Diese KI-gesteuerten Tools bieten jedoch erhebliche Vorteile: Sie sind bemerkenswert schnell, konsistent und unerschütterlich in ihrem Fokus auf sich wiederholende Aufgaben. Letztendlich dienen sie als wertvolle Ergänzung für menschliche Experten, die es ihnen ermöglichen, ihre Zeit nuancierteren, kreativen Bemühungen zu widmen und gleichzeitig KI für die groß angelegte Datenverarbeitung zu nutzen.

MR: Wie schwierig ist es für Benutzer, mit diesen Tools zu arbeiten?

HV: Für diejenigen, die daran interessiert sind, die Fähigkeiten der Tools zu erkunden, haben wir eine grundlegende grafische Benutzeroberfläche für die Farberkennung und das Objekterkennungstool entwickelt, in der Benutzer die URL eines Online-Bildes eingeben und die verschiedenen Geschmacksrichtungen und Einstellungen testen können. Dieses webbasierte Tool erfordert keine Installation auf dem Computer des Benutzers, obwohl die Option, es lokal herunterzuladen und auszuführen, ebenfalls verfügbar ist. Um diese Tools jedoch in bestehende Datenbanken zu integrieren und große Mengen an Bildern zu verarbeiten, ist ein gewisses Programmier-Know-how erforderlich. Für solche fortgeschrittenen Anwendungsfälle haben wir auf unserer GitHub-Seite eine umfassende Dokumentation bereitgestellt, um Entwickler nahtlos durch den Integrationsprozess zu führen.

Erfahren Sie mehr

Im September 2024 wird im Rahmen des Projekts AI4Culture eine Plattform eingerichtet, auf der offene Instrumente, wie die oben vorgestellten Erkennungsinstrumente, zusammen mit zugehöriger Dokumentation und Schulungsmaterial online zur Verfügung gestellt werden. Behalten Sie die Projektseite auf Europeana Pro für weitere Details im Auge und bleiben Sie auf dem Laufenden über das Projekt LinkedIn und X-Konto!

Das Objekt- und Objekterkennungstool ist ebenfalls in die MINT-Aggregationsplattform integriert und wird seinen Nutzern als einsatzbereiter Mehrwertdienst angeboten. Die grafische Benutzeroberfläche ermöglicht es MINT-Anwendern, ihre Metadaten mit den vom Bildanalyse-Tool extrahierten Anmerkungen mit wenigen Klicks anzureichern. Wenn Sie daran interessiert sind, diese neu hinzugefügte MINT-Funktion zu nutzen, können Sie diesem Video-Tutorial folgen.

Enge Begegnungen mit KI: Ein tiefer Einblick in die Bildinhaltsanalyse

Teilen

Erfahren Sie mehr

Entdecken Sie verwandte Inhalte