Schulung unseres Bildklassifizierungsmodells

Veröffentlicht 2. Juni 2021

Ein Modell für die Ein-Label-Klassifizierung

Der Datensatz, den wir für unseren Image-Klassifizierungs-Piloten gesammelt haben, eignete sich für die Schulung eines Single-Label-Klassifizierungsmodells - also eines Modells, das eine einzige Kategorie pro Bild ausgibt. Die Etiketten oder Kategorien aus dem Trainingsdatensatz werden auch als „Grundwahrheit“ bezeichnet, was bedeutet, dass dies die wahren oder richtigen Etiketten für die angegebenen Bilder sind.

Als Klassifikator für die Bilder haben wir eine Art konvolutionales neuronales Netzwerk verwendet, ein mathematisches Modell mit einer geschichteten Struktur, die von der Funktionsweise des Gehirns inspiriert ist. Ein konvolutionales neuronales Netzwerk ist ein Deep-Learning-Modell, das entwickelt wurde, um relevante Informationen aus Bildern zu extrahieren, und sie sind die übliche Wahl für Computer Vision-Anwendungen.

In unserem Fall war die Eingabe des Modells ein Bild, und die Ausgabe war eine Wahrscheinlichkeitsverteilung über alle Kategorien des Zielvokabulars. Es gab jeder Kategorie eine Zahl zwischen 0 und 1, die oft als Vertrauenspunktzahl interpretiert wird. Dieses Modell wurde dann trainiert, indem es Bilder aus dem Datensatz iterativ vorhersagte und die resultierenden Vorhersagen korrigierte, indem sie mit der tatsächlichen Grundwahrheit verglichen wurden.

Sobald das Modell trainiert wurde, bewerteten wir seine Leistung, indem wir es an unsichtbaren Bildern testeten und verglichen, ob die Vorhersage des Modells dem im Bild dargestellten Konzept entsprach. Wir haben auch einen Explainable AI-Algorithmus verwendet, der uns geholfen hat, die Ausgabe des Modells zu verstehen, indem wir die interessierenden Regionen für jede der Ausgabekategorien visualisiert haben. Dies ermöglichte es uns, die Bereiche des Bildes zu verstehen, die für jede Kategorie am relevantesten sind, was Hinweise auf das Innenleben des Modells lieferte.

Im Folgenden finden Sie einige Beispiele für Vorhersagen zu Beispielen, die mit der Such-API erhalten wurden, zusammen mit den Konfidenzwerten und den Erklärbarkeitskarten. Das Modell verwendet die folgenden Bilder: aanzicht, Beeldbank van de Rijksdienst voor het Cultureel Erfgoed, Niederlande, G.Th. Delemarre, 1965-03, CC-BY-SA. Lerkärl, kärl, vessel@eng, Vasija, Världskulturmuseet, Schweden, CC-BY. Esimene rohelus, Eesti Sõjamuuseum - Kindral Laidoneri Muuseum, Estland, Genin, CC0.

Unsere Erkenntnisse

Aus den bisherigen Ergebnissen können wir sehen, dass das Modell in der Lage war, die relevantesten Konzepte des Vokabulars für die gegebenen Bilder erfolgreich zu erfassen. Obwohl es bei weitem nicht perfekt ist, kann das Modell aus unseren angereicherten Sammlungen lernen und auf neue Bilder angewendet werden, um potenziell nützliche Metadaten zu generieren.

Die Haupteinschränkung unseres Ansatzes besteht darin, dass die Konzepte des Vokabulars nicht exklusiv sind, und dies passt nicht gut zu einer einzigen Klasse pro Bild. Zum Beispiel kann ein Bild ein Foto sein und sowohl ein Gebäude als auch eine Skulptur enthalten, aber aufgrund des Single-Label-Ansatzes können wir unser Modell nur trainieren und bewerten, um einen dieser Aspekte zu identifizieren.

Dies gibt uns ein Modell, das oft einen hohen Konfidenzwert für nur eine der Kategorien ausgibt, wobei das Vertrauen für den Rest der Kategorien gering ist. Indem wir einen niedrigen Schwellenwert für die Konfidenzwerte der Ausgabe festlegen, können wir mehr als ein Label als Ausgabe erhalten. Dieser Ansatz ist jedoch nicht ideal, da alle Konfidenzwerte zu einem addiert werden müssen (wie bei jeder rechtlichen Wahrscheinlichkeitsverteilung), was hohe Konfidenzwerte bei einem Vokabular mit mehreren Kategorien verhindert.

Idealerweise wäre unser Modell ein Multilabel-Klassifikator - ein Modell, das mit mehr als einem Label pro Bild trainiert wird und in der Lage ist, hohe Konfidenzwerte für mehrere Kategorien auszugeben.

Erwähnenswert ist auch, dass unser Datensatz ohne menschliche Aufsicht zusammengestellt wurde (wir haben die erhaltenen Bilder nicht überprüft oder überprüft, ob sie tatsächlich mit den Kategorien übereinstimmen). Dies bedeutet, dass die Qualität des Datensatzes von den Metadaten abhängt, die mit den Objekten des Kulturerbes verknüpft sind, und von früheren automatischen Anreicherungen auf der Grundlage von Metadaten. In der Praxis wurden nicht alle Bilder aus dem Trainingsdatensatz auf die richtigen Kategorien ausgerichtet.

Nächste Schritte

Wir stellen derzeit einen Trainingsdatensatz für die Multilabel-Klassifizierung zusammen und werden unsere Arbeit und unseren Ansatz in einem zukünftigen Pro-Nachrichtenbeitrag teilen - bleiben Sie dran! In der Zwischenzeit können Sie unser Github-Repository für das Pilotprojekt und dieses Colab-Notizbuch erkunden, in dem Sie Ihre eigenen Anfragen an die Europeana Search API stellen und das Single-Label-Klassifizierungsmodell anwenden können.

Fühlen Sie sich frei, uns unter [email protected] zu kontaktieren, wenn Sie Fragen oder Ideen haben!

Schulung unseres Bildklassifizierungsmodells

Teilen

Ein Modell für die Ein-Label-Klassifizierung

Unsere Erkenntnisse

Nächste Schritte

Entdecken Sie verwandte Inhalte