Træning af vores billedklassifikationsmodel

Offentliggjort 2. juni 2021

En model for klassificering af et enkelt mærke

Det datasæt, vi indsamlede til vores billedklassifikationspilot, var egnet til træning af en enkelt etiketklassifikationsmodel - det vil sige en model, der udsender en enkelt kategori pr. billede. Mærkaterne eller kategorierne fra træningsdatasættet kaldes også "grundssandheden", hvilket betyder, at disse er de sande eller korrekte mærkater for de givne billeder.

Vi brugte en type af convolutional neurale netværk som vores klassifikator for billederne, som er en matematisk model med en lagdelt struktur inspireret af hjernens funktion. En convolutional neurale netværk er en dyb læring model designet til at udtrække relevante oplysninger fra billeder, og de er det sædvanlige valg for computer vision applikationer.

I vores tilfælde var modellens input et billede, og outputtet var en sandsynlighedsfordeling over alle kategorierne i målordforrådet. Det gav hver kategori et tal mellem 0 og 1, der ofte fortolkes som en tillid score. Denne model blev derefter trænet ved iterativt at forudsige billeder fra datasættet og korrigere de resulterende forudsigelser ved at sammenligne dem med den faktiske jordsandhed.

Da modellen var blevet trænet, vurderede vi dens ydeevne ved at teste den på usynlige billeder og sammenligne, om modellens forudsigelse svarede til det koncept, der er afbildet på billedet. Vi anvendte også en forklarelig AI-algoritme, der hjalp os med at forstå modellens output ved at visualisere interesseregionerne for hver af outputkategorierne. Dette gjorde det muligt for os at forstå de områder af billedet, der er mest relevante for hver kategori, hvilket gav spor om modellens indre funktioner.

Nedenfor kan du se flere eksempler på forudsigelser på prøver, der er opnået ved hjælp af søge-API'en, sammen med tillidsscorerne og forklarlighedskortene. Modellen bruger følgende billeder: aanzicht, Beeldbank van de Rijksdienst voor het Cultureel Erfgoed, Nederlandene, G.Th. Delemarre, 1965-03, CC-BY-SA. Lerkärl, kärl, vessel@eng, Vasija, Världskulturmuseet, Sverige, CC-BY. Esimene rohelus, Eesti Sõjamuuseum - Kindral Laidoneri Muuseum, Estland, Genin, CC0.

Vores erfaringer

Fra de tidligere resultater kan vi se, at modellen var i stand til med succes at fange de mest relevante begreber i ordforrådet for de givne billeder. Selv om det er langt fra perfekt, kan modellen lære af vores berigede samlinger, og kan anvendes til nye billeder til at generere potentielt nyttige metadata.

Den vigtigste begrænsning i vores tilgang er, at begreberne i ordforrådet ikke er eksklusive, og at dette ikke stemmer godt overens med en enkelt klasse pr. billede. For eksempel kan et billede være et fotografi og indeholde både en bygning og en skulptur, men på grund af single label-tilgangen kan vi kun træne og evaluere vores model for at identificere et af disse aspekter.

Dette giver os en model, der ofte giver en høj tillidsscore for kun én af kategorierne, mens tilliden for resten af kategorierne er lav. Ved at fastsætte en lav tærskel for tillidsscorerne for outputtet kan vi få mere end én etiket som output. Denne tilgang er imidlertid ikke ideel, da alle tillidsscorer skal lægges sammen til én (som i enhver juridisk sandsynlighedsfordeling), hvilket forhindrer høje tillidsværdier i tilfælde af et ordforråd med flere kategorier.

Ideelt set ville vores model være en multilabel klassifikator - en model, der er uddannet med mere end én etiket pr. billede, og som er i stand til at producere høje tillidsscorer for flere kategorier.

Det er også værd at nævne, at vores datasæt er blevet samlet uden menneskelig overvågning (vi gennemgik ikke de opnåede billeder eller kontrollerede, om de faktisk er i overensstemmelse med kategorierne). Det betyder, at datasættets kvalitet vil afhænge af de metadata, der er knyttet til kulturarvsgenstandene, og af tidligere automatiske berigninger baseret på metadata. I praksis var det ikke alle billeder fra træningsdatasættet, der var i overensstemmelse med de korrekte kategorier.

Næste skridt

Vi er i øjeblikket ved at samle et træningsdatasæt til klassificering af flere etiketter og vil dele vores arbejde og tilgang i et fremtidigt Pro-nyhedsindlæg - stay tuned! I mellemtiden kan du udforske vores Github-lager til piloten og denne Colab-notesbog, hvor du kan foretage dine egne forespørgsler til Europeana Search API og anvende klassificeringsmodellen med en enkelt etiket.

Du er velkommen til at kontakte os på [email protected], hvis du har spørgsmål eller ideer!

Træning af vores billedklassifikationsmodel

Del

En model for klassificering af et enkelt mærke

Vores erfaringer

Næste skridt

Opdag relateret indhold