Een model voor classificatie op basis van één etiket
De dataset die we verzamelden voor onze beeldclassificatiepiloot was geschikt voor het trainen van een enkel labelclassificatiemodel - dat wil zeggen een model dat een enkele categorie per afbeelding uitvoert. De labels of categorieën uit de trainingsdataset staan ook bekend als de “grondwaarheid”, wat betekent dat dit de ware of juiste labels zijn voor de gegeven afbeeldingen.
We gebruikten een soort convolutioneel neuraal netwerk als classificator voor de beelden, een wiskundig model met een gelaagde structuur geïnspireerd op het functioneren van de hersenen. Een convolutioneel neuraal netwerk is een deep learning-model dat is ontworpen om relevante informatie uit afbeeldingen te extraheren, en ze zijn de gebruikelijke keuze voor computer vision-toepassingen.
In ons geval was de invoer van het model een afbeelding en de uitvoer een waarschijnlijkheidsverdeling over alle categorieën van de doelwoordenschat. Het gaf elke categorie een getal tussen 0 en 1 dat vaak wordt geïnterpreteerd als een betrouwbaarheidsscore. Dit model werd vervolgens getraind door afbeeldingen uit de dataset iteratief te voorspellen en de resulterende voorspellingen te corrigeren door ze te vergelijken met de werkelijke grondwaarheid.

Nadat het model was getraind, beoordeelden we de prestaties door het te testen op onzichtbare afbeeldingen en te vergelijken of de voorspelling van het model overeenkwam met het concept dat in de afbeelding is afgebeeld. We gebruikten ook een verklarend AI-algoritme dat ons hielp de output van het model te begrijpen door de interessegebieden voor elk van de outputcategorieën te visualiseren. Dit stelde ons in staat om de gebieden van het beeld te begrijpen die het meest relevant zijn voor elke categorie, wat aanwijzingen gaf over de innerlijke werking van het model.
Hieronder vindt u verschillende voorbeelden van voorspellingen over monsters die met behulp van de Search API zijn verkregen, samen met de betrouwbaarheidsscores en de verklaarbaarheidskaarten. Het model gebruikt de volgende afbeeldingen: aanzicht, Beeldbank van de Rijksdienst voor het Cultureel Erfgoed, Netherlands, G.Th. Delemarre, 1965-03, CC-BY-SA. Lerkärl, kärl, vessel@eng, Vasija, Världskulturmuseet, Zweden, CC-BY. Esimene rohelus, Eesti Sõjamuuseum - Kindral Laidoneri Muuseum, Estland, Genin, CC0.

Onze lessen
Uit de vorige resultaten kunnen we zien dat het model in staat was om met succes de meest relevante concepten van de woordenschat voor de gegeven beelden vast te leggen. Hoewel het verre van perfect is, kan het model leren van onze verrijkte collecties en kan het worden toegepast op nieuwe afbeeldingen om potentieel nuttige metadata te genereren.
De belangrijkste beperking van onze aanpak is dat de concepten van de woordenschat niet exclusief zijn en dat dit niet goed aansluit bij een enkele klasse per afbeelding. Een afbeelding kan bijvoorbeeld een foto zijn en zowel een gebouw als een sculptuur bevatten, maar door de single label-benadering kunnen we ons model alleen trainen en evalueren om een van deze aspecten te identificeren.
Dit geeft ons een model dat vaak een hoge betrouwbaarheidsscore oplevert voor slechts één van de categorieën, met het vertrouwen voor de rest van de categorieën laag. Door een lage drempel in te stellen voor de betrouwbaarheidsscores van de output, kunnen we meer dan één label als output krijgen. Deze aanpak is echter niet ideaal, aangezien alle betrouwbaarheidsscores moeten oplopen tot één (zoals in elke wettelijke waarschijnlijkheidsverdeling), wat hoge betrouwbaarheidswaarden voorkomt in het geval van een woordenschat met meerdere categorieën.
Idealiter zou ons model een multilabel classifier zijn - een model dat is getraind met meer dan één label per afbeelding en dat in staat is om hoge betrouwbaarheidsscores voor verschillende categorieën uit te voeren.
Het is ook vermeldenswaard dat onze dataset is samengesteld zonder menselijk toezicht (we hebben de verkregen beelden niet beoordeeld of gecontroleerd of ze inderdaad zijn afgestemd op de categorieën). Dit betekent dat de kwaliteit van de dataset zal afhangen van de metagegevens die verband houden met de cultureel erfgoedobjecten en van eerdere automatische verrijkingen op basis van metagegevens. In de praktijk waren niet alle beelden uit de trainingsdataset afgestemd op de juiste categorieën.
Volgende stappen
We zijn momenteel bezig met het samenstellen van een trainingsdataset voor multilabelclassificatie en zullen ons werk en onze aanpak delen in een toekomstige Pro-nieuwspost - blijf op de hoogte! In de tussentijd kunt u onze Github-repository voor de pilot en dit Colab-notebook verkennen, waar u uw eigen query's kunt maken naar Europeana Search API en het classificatiemodel met één label kunt toepassen.
Neem gerust contact met ons op via [email protected] als u vragen of ideeën heeft!
