Ein Multi-Label-Klassifizierungsmodell
Wie in früheren Pro-Nachrichtenbeiträgen untersucht, haben wir bei der Europeana Foundation ein Pilotprojekt zur Bildklassifizierung durchgeführt, bei dem wir ein Modell zur Ein-Label-Bildklassifizierung trainiert haben, um unsere Sammlungen zu bereichern. Das von uns entwickelte Modell war in der Lage, Bilder aus unserem Zielvokabular in Kategorien einzuordnen, identifizierte jedoch nur einen Aspekt (oder „Label“) jedes Bildes. So begannen wir dann, an der Schulung des Modells zu arbeiten, um ein Bild mit mehr als einem Etikett zu klassifizieren - so konnten Konzepte wie „Fotografie“ und „Skulptur“ im selben Bild identifiziert werden.
Um dieses Multilabel-Bildklassifizierungsmodell zu trainieren, mussten wir einen Trainingsdatensatz sammeln, der Bilder mit mehreren Labels in ihren Metadaten enthält. Wir nutzten die Europeana Search API, indem wir nach Objekten suchten, die mit mehr als einem Konzept aus unserem Vokabular indiziert waren, was zu insgesamt 9.000 Objekten führte. Wie bei unseren bisherigen Bemühungen um die Einstufung von Einzeletiketten haben wir diesen Datensatz nicht überprüft, so dass die Qualität der Etiketten von der Qualität früherer Anreicherungen abhing.
Bei der Multilabel-Klassifizierung enthielten die korrekten Metadaten (oder Ground Truth) mehr als ein Label für jedes Bild. Wir trainierten ein konvolutionales neuronales Netzwerk, um die Bilder zu klassifizieren, und verwendeten dann das resultierende Modell für Objekte, die von der Such-API erhalten wurden. Sie können einige der Beispiele mit ihren Vorhersagen, Konfidenzwerten und Interpretationskarten unten sehen.

Unsere Erkenntnisse
Aus unseren Experimenten sind wir zu dem Schluss gekommen, dass das Modell in der Lage ist, mehrere relevante Etiketten für die gegebenen Bilder korrekt zu identifizieren. Der Multilabel-Ansatz ist hilfreicher als die Verwendung von Einzeletiketten, da er mit hoher Zuverlässigkeit mehrere Etiketten auf jedes Bild auftragen kann.
Trotz der interessanten Ergebnisse ist die Leistung des resultierenden Modells bei weitem nicht perfekt, und wir können dies auf mehrere Faktoren zurückführen. Das wichtigste ist die relativ geringe Qualität des gesammelten Datensatzes. Der Hof stellte fest, dass viele der abgerufenen Bilder keine korrekten Metadaten haben.
Darüber hinaus wurden die meisten für die Ausbildung verwendeten Daten vom norwegischen DigitalMuseum bereitgestellt. Dies bedeutet, dass die Trainingsdaten nicht die gesamte Datenverteilung bei Europeana widerspiegeln, was dazu führt, dass das Modell auf die Daten ausgerichtet ist, mit denen es trainiert wurde. Die Verzerrungen der Schulungsdaten werden sich in einem Mangel an Verallgemeinerung für die übrigen Bilder von Europeana niederschlagen. Einfach ausgedrückt, wird das Modell auf Bildern, die den im Trainingsdatensatz enthaltenen Bildern ähneln, gut funktionieren, aber es wird fehlschlagen, wenn die Bilder zu unterschiedlich sind.
Im Allgemeinen sind unsere Trainingsdaten gut genug, damit das Modell einige grundlegende Muster lernen kann. Das Modell hat sich trotz der schwierigen Einstellung, Daten mit falschen Etiketten zu verwenden, gut bewährt. Die Qualität früherer Anreicherungen ist jedoch nicht geeignet, sie als Schulungsdaten für den Aufbau eines Modells zur Bereicherung unserer Sammlungen zu verwenden. Eine Lösung hierfür besteht darin, einen qualitativ hochwertigeren Trainingsdatensatz zu erstellen, um sicherzustellen, dass unser Modell mit den richtigen Etiketten präsentiert wird.
Künftige Arbeiten: Crowdsourcing
Nach der Schulung und Bewertung des Multilabel-Klassifizierungsmodells sind wir zu dem Schluss gekommen, dass die Zuordnung mehrerer Labels zu den Bildern aus unserer Kollektion besser geeignet ist, als sie mit einem einzigen Label anzureichern.
Wir erwägen, das Vokabular um andere Begriffe zu erweitern, die für das kulturelle Erbe relevant sind. Noch wichtiger ist, dass wir planen, den Trainingsdatensatz zu überprüfen und zu erweitern, um mögliche Verzerrungen und Fehler zu identifizieren und zu korrigieren. Wir möchten sicherstellen, dass unser Modell mit den richtigen Etiketten präsentiert wird, von denen erwartet wird, dass sie deutlich besser abschneiden, als wenn sie mit "lauten" Etiketten trainiert werden. Wir haben eine Crowdsourcing-Kampagne zum Aufbau eines qualitativ hochwertigen kommentierten Datensatzes mit Zooniverse gestartet, und wir begrüßen Beiträge unserer Community.
Sie können unsere Arbeit in diesem Github-Repository verfolgen. Wir laden Sie auch ein, mit diesem Colab-Notizbuch zu experimentieren, in dem Sie Ihre eigenen Anfragen an die Europeana Search API stellen und das Multilabel-Klassifizierungsmodell anwenden können. Fühlen Sie sich frei, uns unter [email protected] zu kontaktieren, wenn Sie Fragen oder Ideen haben!
