Träning av vår bildklassificeringsmodell

Publicerad 2 juni 2021

En modell för klassificering med en enda etikett

Datasetet vi samlade in för vår bildklassificeringspilot var lämplig för att träna en enda etikettklassificeringsmodell - det vill säga en modell som matar ut en enda kategori per bild. Etiketterna eller kategorierna från träningsdatasetet är också kända som ”grundsanningen”, vilket innebär att det är de sanna eller korrekta etiketterna för de givna bilderna.

Vi använde en typ av konvolutionellt neuralt nätverk som vår klassificerare för bilderna, vilket är en matematisk modell med en skiktad struktur inspirerad av hjärnans funktion. Ett konvolutionellt neuralt nätverk är en djupinlärningsmodell som är utformad för att extrahera relevant information från bilder, och de är det vanliga valet för datorseendeapplikationer.

I vårt fall var inmatningen av modellen en bild, och utmatningen var en sannolikhetsfördelning över alla kategorier av målvokabulären. Det gav varje kategori ett tal mellan 0 och 1 som ofta tolkas som en förtroendepoäng. Denna modell tränades sedan genom att iterativt förutsäga bilder från datasetet och korrigera de resulterande förutsägelserna genom att jämföra dem med den faktiska marksanningen.

När modellen väl hade tränats bedömde vi dess prestanda genom att testa den på osynliga bilder och jämföra om modellens förutsägelse motsvarade det koncept som avbildas i bilden. Vi använde också en Förklarbar AI-algoritm som hjälpte oss att förstå modellens output genom att visualisera de intressanta regionerna för var och en av outputkategorierna. Detta gjorde det möjligt för oss att förstå de områden av bilden som är mest relevanta för varje kategori, vilket gav ledtrådar om modellens inre arbete.

Nedan kan du se flera exempel på förutsägelser på prover som erhållits med hjälp av sök-API, tillsammans med förtroendepoängen och förklarbarhetskartorna. Modellen använder följande bilder: aanzicht, Beeldbank van de Rijksdienst voor het Cultureel Erfgoed, Nederländerna, G.Th. Delemarre, 1965–2003, CC-BY-SA. Lerkärl, kärl, vessel@eng, Vasija, Världskulturmuseet, Sverige, CC-BY. Esimene rohelus, Eesti Sõjamuuseum - Kindral Laidoneri Muuseum, Estland, Genin, CC0.

Våra lärdomar

Från de tidigare resultaten kan vi se att modellen lyckades fånga de mest relevanta begreppen i ordförrådet för de givna bilderna. Även om det är långt ifrån perfekt, kan modellen lära av våra berikade samlingar, och kan tillämpas på nya bilder för att generera potentiellt användbara metadata.

Den största begränsningen med vårt tillvägagångssätt är att begreppen i ordförrådet inte är exklusiva, och detta stämmer inte väl överens med en enda klass per bild. Till exempel kan en bild vara ett fotografi och innehålla både en byggnad och en skulptur, men på grund av den enda etikettmetoden kan vi bara träna och utvärdera vår modell för att identifiera en av dessa aspekter.

Detta ger oss en modell som ofta ger ett högt förtroende för endast en av kategorierna, med förtroende för resten av kategorierna låg. Genom att sätta en låg tröskel för konfidenspoängen för utdata kan vi få mer än en etikett som utdata. Detta tillvägagångssätt är dock inte idealiskt eftersom alla konfidenspoäng måste uppgå till en (som i någon juridisk sannolikhetsfördelning), vilket förhindrar höga konfidensvärden när det gäller ett ordförråd med flera kategorier.

Helst skulle vår modell vara en multilabel-klassificerare - en modell som är utbildad med mer än en etikett per bild och som kan producera höga konfidenspoäng för flera kategorier.

Det är också värt att nämna att vår datauppsättning har sammanställts utan mänsklig övervakning (vi granskade inte de bilder som erhållits eller kontrollerade om de verkligen är anpassade till kategorierna). Detta innebär att kvaliteten på datasetet kommer att bero på de metadata som är kopplade till kulturarvsföremålen och på tidigare automatiska berikningar baserade på metadata. I praktiken var inte alla bilder från träningsdatauppsättningen anpassade till rätt kategorier.

Nästa steg

Vi samlar för närvarande ett träningsdataset för multilabel-klassificering och kommer att dela vårt arbete och tillvägagångssätt i ett framtida Pro-nyhetspost - håll ögonen öppna! Under tiden kan du utforska vårt Github-arkiv för piloten och denna Colab-anteckningsbok, där du kan göra dina egna frågor till Europeana Search API och tillämpa klassificeringsmodellen med en etikett.

Kontakta oss gärna på [email protected] om du har några frågor eller idéer!

Träning av vår bildklassificeringsmodell

Dela

En modell för klassificering med en enda etikett

Våra lärdomar

Nästa steg

Upptäck relaterat innehåll