Slutförande av Europeana-projektet för bildklassificering

Publicerad 2 november 2021

En klassificeringsmodell med flera märkningar

Som vi har undersökt i tidigare nyhetsinlägg i Pro har vi på Europeana Foundation drivit ett pilotprojekt för bildklassificering och utbildat en modell för bildklassificering med en enda etikett för att berika våra samlingar. Modellen vi utvecklade kunde klassificera bilder i kategorier från vårt målvokabulär, men identifierade bara en aspekt (eller ”etikett”) av varje bild. Så vi började sedan arbeta med att utbilda modellen för att klassificera en bild med mer än en etikett – så att begrepp som ”fotografi” och ”skulptur” kunde identifieras i samma bild.

För att träna denna multilabel-bildklassificeringsmodell var vi tvungna att samla in ett träningsdataset som innehöll bilder med flera etiketter i sina metadata. Vi använde Europeanas sök-API genom att söka efter objekt som indexerats med mer än ett koncept från vår vokabulär, vilket resulterade i totalt 9 000 objekt. Precis som med vår tidigare klassificering av en enda etikett granskade vi inte denna datauppsättning, så kvaliteten på etiketterna berodde på kvaliteten på tidigare anrikningar.

Vid klassificering med flera etiketter innehöll rätt metadata (eller marksanning) mer än en etikett för varje bild. Vi tränade ett konvolutionellt neuralt nätverk för att klassificera bilderna och använde sedan den resulterande modellen på objekt som erhållits från sök-API. Du kan se några av exemplen med deras förutsägelser, förtroendepoäng och tolkningskartor nedan.

Våra lärdomar

Utifrån våra experiment har vi kommit fram till att modellen korrekt kan identifiera flera relevanta etiketter för de givna bilderna. Multilabel-tillvägagångssättet är mer användbart än att använda enstaka etiketter eftersom det kan applicera flera etiketter på varje bild med högt förtroende.

Trots de intressanta resultaten är prestandan hos den resulterande modellen långt ifrån perfekt, och vi kan tillskriva detta till flera faktorer. Det viktigaste är den relativt låga kvaliteten på den insamlade datamängden. Vi fick reda på att många av de hämtade bilderna inte har korrekta metadata.

Dessutom tillhandahölls merparten av de uppgifter som användes för utbildning av det norska DigitalMuseum. Detta innebär att träningsdata inte återspeglar hela datadistributionen på Europeana, vilket gör att modellen är partisk mot de data som den har utbildats med. Fördomar i träningsdata kommer att leda till en brist på generalisering för resten av bilderna från Europeana. Enkelt uttryckt kommer modellen att fungera bra på bilder som liknar de som finns i träningsdatasetet, men det kommer att misslyckas om bilderna är för olika.

I allmänhet är våra träningsdata tillräckligt bra för att modellen ska lära sig några grundläggande mönster. Modellen klarade sig bra trots den utmanande inställningen att använda data med felaktiga etiketter. Kvaliteten på tidigare anrikningar är dock inte lämplig för att använda dem som träningsdata för att bygga en modell för att berika våra samlingar. En lösning på detta är att skapa ett högkvalitativt träningsdataset, för att säkerställa att vår modell presenteras med rätt etiketter.

Framtida arbete: crowdsourcing

Efter utbildning och utvärdering av multilabel-klassificeringsmodellen har vi kommit fram till att det är mer lämpligt att tilldela flera etiketter till bilderna från vår samling än att berika dem med en enda etikett.

Vi överväger att utöka vokabulären genom att inkludera andra termer som är relevanta för kulturarvet. Ännu viktigare är att vi planerar att granska och utöka träningsdatasetet, med målet att identifiera och korrigera eventuella fördomar och fel. Vi vill se till att vår modell presenteras med rätt etiketter, som förväntas prestera betydligt bättre än när den tränas med "bullriga" etiketter. Vi har lanserat en crowdsourcing-kampanj för att bygga ett högkvalitativt kommenterat dataset med Zooniverse, och vi välkomnar bidrag från vårt samhälle.

Du kan följa vårt arbete i detta Github-arkiv. Vi inbjuder dig också att experimentera med den här Colab-anteckningsboken, där du kan ställa dina egna frågor till Europeanas sök-API och tillämpa flermärkesklassificeringsmodellen. Kontakta oss gärna på [email protected] om du har några frågor eller idéer!

Slutförande av Europeana-projektet för bildklassificering

Dela

En klassificeringsmodell med flera märkningar

Våra lärdomar

Framtida arbete: crowdsourcing

Upptäck relaterat innehåll