Berikning spelar en grundläggande roll i Europeanas verksamhet. I vårt sammanhang kan berikning definieras som att generera metadata från de data som tillhandahålls av våra partners, vilket ger extra värde till de data vi får. Vi använder kombinationen av ursprungliga och berikade metadata för att indexera våra poster, och det låter oss bygga funktioner som gör det möjligt för människor att söka och bläddra i våra samlingar och få rekommendationer. Att uppnå automatisk anrikning med hjälp av maskininlärningsalgoritmer är ett av målen i Europeanas strategi för 2020–2025och utlöser projekt som Saint George on a Bike.
Europeanas FoU-team undersöker hur datorseendetekniker (system som kan ge mening åt visuella data) kan förbättra Europeanas anrikning. Vi bestämde oss för att starta ett pilotprojekt om bildklassificering, där vi bygger en modell som kan klassificera bilder från digitaliserade kulturarvsobjekt i en uppsättning fördefinierade kategorier. Vi tror att ett system som tränas med de valda kategorierna skulle vara användbart för att berika våra samlingar.
Djupinlärningstekniker, baserade på en viss typ av matematisk modell som kallas neurala nätverk, är den metod som väljs för denna typ av problem. För att träna ett neuralt nätverk måste vi få ett träningsdataset som innehåller en stor mängd bilder som redan klassificeras i utvalda kategorier. Enkelt uttryckt: Om vi visar en datormodell av bilder av målningar och berättar för modellen att alla dessa bilder är målningar, tränar vi den modellen för att känna igen om bilder som den aldrig har sett är en målning eller inte.
De första steg som krävdes för att bygga upp bildklassificeringsmodellen var att välja ett målvokabulär och samla in ett träningsdataset med hjälp av Europeanas sök-API. Undersök hur vi gjorde det här nedan.
Definiera ett ordförråd för klassificering
Kontrollerade ordförråd är uppsättningar av fördefinierade och unikt identifierade begrepp som kan användas för att indexera data och göra dem interoperabla. Användningen av ordförråd i informationssökning är ett bekvämt sätt att organisera och referera till kunskap.
På Europeana använder vi begrepp från vokabulärer (identifierade av Uniform Resource Identifiers, URI:er) som en del av metadata för indexering av kulturarvsobjekt. För detta projekt fokuserade vi på ett urval av koncept från Europeana Entity Collection, som har motsvarigheter med koncept från Getty Art and Architecture Thesaurus (AAT). Denna vokabulär samlades ursprungligen för att organisera anskaffningen av innehåll för våra tematiska samlingar. Vi inkluderade 20 kategorier som fotografier, målningar, skulpturer, kläder och smycken.
Åtkomst till data med hjälp av Europeanas sök-API
När vi hade vårt ordförråd ville vi komma åt bilder som tillhörde de olika kategorierna för att träna vår modell. Vi gjorde detta genom Europeana Search API, ett av de många gränssnitt som gör det möjligt för oss att hämta kulturarvsföremål som visas på europeana.eu. Med en fråga och en uppsättning parametrar returnerar sök-API:t ett maskinläsbart svar som innehåller metadata för de resulterande objekten. API-svaret betjänar data enligt Europeanas datamodell.
I vår inställning ansåg vi att det bara fanns en möjlig kategori för varje bild. Detta gjorde det möjligt för oss att sammanställa en kommenterad datauppsättning genom att söka i sök-API:et efter bilder som motsvarar de olika begreppen i vårt ordförråd, och använda detta koncept som etikett. På detta sätt monterade vi datasetet automatiskt och ingen manuell anteckning var nödvändig.
Eftersom vi ville att vårt dataset skulle följa FAIR-principerna (findable, accessible, interoperable and reusable) identifierade vi unikt både koncepten och de kulturarvsobjekt som hämtades, och vi använde endast öppet licensierat innehåll. De metadata som tillhandahålls av sök-API:et omfattas av en öppen licens, medan innehållet i kulturarvsobjekten kan omfattas av upphovsrätt. För detta pilotprojekt betraktade vi endast bilder som är fria från upphovsrätt genom att ställa in återanvändbarhetsparametern som öppen.
I vårt fall ville vi hämta objekt indexerade med de olika begreppen i ordförrådet. I stället för att använda den mänskligt läsbara versionen av begreppen gjorde vi en fråga för konceptet URI direkt genom att använda parametern skos_concept (en av sökparametrarna i API:et).
Vi var intresserade av att hålla reda på de objekt som används för att montera vår dataset. För varje objekt som hämtades lagrade vi relevant information i en CSV-fil. Bilderna kommer så småningom att behöva laddas ner och lagras på disk för att träna bildklassificeringsmodellen.
Läs mer
Bildträningsdatasetet kan nu användas för att bygga en bildklassificeringsmodell som kommer att mata ut ett av begreppen i ordförrådet som ges en inmatningsbild. Vi planerar att fortsätta vårt arbete genom att utvärdera om detta dataset innehåller tillräckligt med information för att träna en bildklassificeringsmodell och bedöma om den resulterande modellen är lämplig för automatisk anrikning. Vi kommer att dela uppdateringar via Europeana Pro nyheter!
Vi hoppas att det här inlägget uppmuntrar ingenjörer och forskare som är intresserade av att experimentera med kulturarv att använda vårt sök-API för att montera dataset för maskininlärning, och i synnerhet att använda våra samlingar för utbildning och tillämpning av datorseendealgoritmer! Kolla gärna in Github-förvaret, där du kan hitta de ordförråd som används, de dataset som samlas in och kod för att skörda datasetet och träna en bildklassificeringsmodell. Glöm inte att kontakta oss på [email protected] om du har några frågor, idéer eller erfarenheter att dela med dig av!
Om du är intresserad av att veta mer om AI och digitalt kulturarv kan du utforska vårt AI-tema på Europeana Pro.
