Verrijking speelt een fundamentele rol in de activiteiten van Europeana. In onze context kan verrijking worden gedefinieerd als het genereren van metadata uit de gegevens die door onze partners worden verstrekt, waardoor extra waarde wordt toegevoegd aan de gegevens die we ontvangen. We gebruiken de combinatie van originele en verrijkte metadata voor het indexeren van onze records, en dit stelt ons in staat om functionaliteiten te bouwen waarmee mensen onze collecties kunnen doorzoeken en doorzoeken en aanbevelingen kunnen ontvangen. Automatische verrijking met behulp van algoritmen voor machinaal leren is een van de doelstellingen van de Europeana-strategie 2020-2025, die projecten zoals Saint George on a Bike in gang zet.
Het R&D-team van Europeana onderzoekt hoe computer vision-technieken (systemen die visuele gegevens kunnen begrijpen) de verrijking van Europeana kunnen verbeteren. We besloten om een pilot te starten over beeldclassificatie, waarbij we een model bouwen dat afbeeldingen van gedigitaliseerde cultureel erfgoedobjecten kan classificeren in een reeks vooraf gedefinieerde categorieën. Wij zijn van mening dat een systeem dat is getraind met de geselecteerde categorieën nuttig zou zijn bij het verrijken van onze collecties.
Deep learning technieken, gebaseerd op een bepaald soort wiskundig model genaamd neurale netwerken, zijn de methode bij uitstek voor dit soort problemen. Om een neuraal netwerk te trainen, moeten we een trainingsdataset verkrijgen met een grote hoeveelheid afbeeldingen die al in geselecteerde categorieën zijn ingedeeld. Eenvoudig gezegd: Als we een computermodel afbeeldingen van schilderijen laten zien en het model vertellen dat al deze afbeeldingen schilderijen zijn, trainen we dat model om te herkennen of afbeeldingen die het nog nooit heeft gezien een schilderij zijn of niet.
De eerste stappen die nodig zijn om het beeldclassificatiemodel op te bouwen, waren het selecteren van een doelwoordenschat en het verzamelen van een opleidingsdataset met behulp van de Europeana Search API; Ontdek hieronder hoe we dit hebben gedaan.
Het definiëren van een vocabulaire voor classificatie
Gecontroleerde woordenlijsten zijn sets van vooraf gedefinieerde en uniek geïdentificeerde concepten, die kunnen worden gebruikt om gegevens te indexeren en interoperabel te maken. Het gebruik van woordenlijsten bij het ophalen van informatie is een handige manier om kennis te organiseren en te raadplegen.
Bij Europeana gebruiken we concepten uit vocabulaires (geïdentificeerd door Uniform Resource Identifiers, URI's) als onderdeel van de metadata voor het indexeren van cultureel erfgoedobjecten. Voor dit project hebben we ons gericht op een selectie van concepten uit de Europeana Entity Collection, die gelijkwaardig zijn aan concepten uit de Getty Art and Architecture Thesaurus (AAT). Deze woordenschat werd oorspronkelijk verzameld voor het organiseren van de inkoop van inhoud voor onze thematische collecties. We hebben 20 categorieën opgenomen, zoals foto's, schilderijen, sculpturen, kleding en sieraden.
Toegang tot gegevens met behulp van de Europeana Search API
Zodra we onze woordenschat hadden, wilden we toegang tot afbeeldingen die behoren tot de verschillende categorieën voor het trainen van ons model. We hebben dit gedaan via de Europeana Search API, een van de vele interfaces waarmee we cultureel erfgoedobjecten kunnen ophalen die op europeana.eu worden weergegeven. Bij een query en een reeks parameters retourneert de zoek-API een machineleesbaar antwoord met de metadata van de resulterende objecten. De API-respons dient de gegevens volgens het Europeana-gegevensmodel.
In onze setting waren we van mening dat er slechts één mogelijke categorie was voor elke afbeelding. Dit stelde ons in staat om een geannoteerde dataset samen te stellen door de Search API te doorzoeken naar afbeeldingen die overeenkomen met de verschillende concepten in onze woordenschat, en dit concept als label te gebruiken. Op deze manier hebben we de dataset automatisch samengesteld en was er geen handmatige annotatie nodig.
Omdat we wilden dat onze dataset de FAIR-principes (findable, accessible, interoperable and reusable) zou volgen, identificeerden we op unieke wijze zowel de concepten als de teruggehaalde cultureel erfgoedobjecten en gebruikten we alleen inhoud met een open licentie. De metagegevens die door de zoek-API worden geleverd, vallen onder een open licentie, terwijl de inhoud van de cultureel erfgoedobjecten mogelijk onder het auteursrecht valt. Voor deze pilot hebben we alleen afbeeldingen zonder auteursrecht in aanmerking genomen door de herbruikbaarheidsparameter als open in te stellen.
In ons geval wilden we objecten terughalen die geïndexeerd waren met de verschillende concepten van de woordenschat. In plaats van de menselijk leesbare versie van de concepten te gebruiken, hebben we rechtstreeks een query voor de concept-URI gemaakt met behulp van de skos_concept-parameter (een van de zoekparameters van de API).
We waren geïnteresseerd in het bijhouden van de objecten die werden gebruikt om onze dataset samen te stellen. Voor elk opgehaald object hebben we relevante informatie opgeslagen in een CSV-bestand. De beelden zullen uiteindelijk moeten worden gedownload en opgeslagen in schijf voor de opleiding van het model van de beeldclassificatie.
Meer informatie
De beeldtrainingsdataset kan nu worden gebruikt voor het bouwen van een beeldclassificatiemodel dat een van de concepten van de woordenschat die een invoerbeeld krijgt, zal uitvoeren. We zijn van plan om ons werk voort te zetten door te evalueren of deze dataset voldoende informatie bevat om een beeldclassificatiemodel te trainen en te beoordelen of het resulterende model geschikt is voor automatische verrijking. We zullen updates delen via Europeana Pro nieuws!
We hopen dat dit bericht ingenieurs en onderzoekers die geïnteresseerd zijn in het experimenteren met cultureel erfgoed aanmoedigt om onze Search API te gebruiken voor het assembleren van datasets voor machine learning, en in het bijzonder om onze collecties te gebruiken voor het trainen en toepassen van computer vision-algoritmen! Voel je vrij om de Github repository te bekijken, waar je de gebruikte woordenlijsten kunt vinden, de verzamelde datasets en code voor het oogsten van de dataset en het trainen van een beeldclassificatiemodel. Vergeet niet contact met ons op te nemen via [email protected] als u vragen, ideeën of ervaringen hebt om te delen!
Als u meer wilt weten over AI en digitaal cultureel erfgoed, kunt u ons AI-thema over Europeana Pro verkennen.
