Berigelse spiller en grundlæggende rolle i Europeanas aktiviteter. I vores kontekst kan berigelse defineres som generering af metadata fra de data, der leveres af vores partnere, hvilket tilføjer ekstra værdi til de data, vi modtager. Vi bruger kombinationen af originale og berigede metadata til at indeksere vores optegnelser, og det giver os mulighed for at opbygge funktioner, der gør det muligt for folk at søge og gennemse vores samlinger og modtage anbefalinger. Opnåelse af automatisk berigelse ved hjælp af maskinlæringsalgoritmer er et af målene i Europeana-strategien 2020-2025, der udløser projekter såsom Saint George on a Bike.
Europeanas R&D-team undersøger, hvordan computervisionsteknikker (systemer, der kan give mening med visuelle data) kan forbedre den berigelse, Europeana udfører. Vi besluttede at starte et pilotprojekt om billedklassifikation, hvor vi bygger en model, der er i stand til at klassificere billeder fra digitaliserede kulturarvsgenstande i et sæt foruddefinerede kategorier. Vi mener, at et system, der er trænet med de udvalgte kategorier, vil være nyttigt til at berige vores kollektioner.
Deep learning teknikker, baseret på en bestemt type matematisk model kaldet neurale netværk, er den foretrukne metode til denne type problem. For at træne et neuralt netværk skal vi have et træningsdatasæt, der indeholder en stor mængde billeder, der allerede er klassificeret i udvalgte kategorier. Kort sagt: Hvis vi viser en computermodel billeder af malerier og fortæller modellen, at alle disse billeder er malerier, træner vi den model til at genkende, om billeder, den aldrig har set, er et maleri eller ej.
De første skridt, der var nødvendige for at opbygge billedklassificeringsmodellen, var at vælge et målordforråd og indsamle et træningsdatasæt ved hjælp af Europeana Search API. Undersøg hvordan vi gjorde det nedenfor.
Definition af et ordforråd til klassificering
Kontrollerede ordforråd er sæt af foruddefinerede og entydigt identificerede begreber, som kan bruges til at indeksere data og gøre dem interoperable. Brugen af ordforråd i informationssøgning er en bekvem måde at organisere og referere viden på.
Hos Europeana bruger vi begreber fra ordlister (identificeret af Uniform Resource Identifiers, URI'er) som en del af metadataene til indeksering af kulturarvsgenstande. Til dette projekt fokuserede vi på et udvalg af koncepter fra Europeana Entity Collection, som har ækvivalenser med koncepter fra Getty Art and Architecture Thesaurus (AAT). Dette ordforråd blev oprindeligt indsamlet for at organisere indkøb af indhold til vores tematiske samlinger . Vi inkluderede 20 kategorier som fotografier, malerier, skulpturer, tøj og smykker.
Adgang til data ved hjælp af Europeana Search API
Når vi havde vores ordforråd, ønskede vi at få adgang til billeder, der tilhører de forskellige kategorier til træning af vores model. Vi gjorde dette gennem Europeana Search API, en af de mange grænseflader, der giver os mulighed for at hente kulturarvsgenstande, der vises på europeana.eu. I betragtning af en forespørgsel og et sæt parametre returnerer søge-API'en et maskinlæsbart svar, der indeholder metadataene for de resulterende objekter. API-svaret tjener de data, der følger Europeana Data Model.
I vores indstilling mente vi, at der kun var én mulig kategori for hvert billede. Dette gjorde det muligt for os at samle et kommenteret datasæt ved at søge i søge-API'en efter billeder, der svarer til de forskellige begreber i vores ordforråd, og bruge dette begreb som etiket. På denne måde samlede vi datasættet automatisk, og der var ikke behov for manuel anmærkning.
Da vi ønskede, at vores datasæt skulle følge FAIR-principperne (findelige, tilgængelige, interoperable og genanvendelige), identificerede vi entydigt både begreberne og de kulturarvsgenstande, der blev hentet, og vi brugte kun åbent licenseret indhold. De metadata, der leveres af Search API, er under en åben licens, mens indholdet af kulturarvsgenstandene kan være underlagt ophavsret. For dette pilotprojekt anså vi kun billeder for at være fri for ophavsret ved at indstille genanvendelighedsparameteren som åben.
I vores tilfælde ønskede vi at hente objekter indekseret med de forskellige begreber i ordforrådet. I stedet for at bruge den menneskeligt læsbare version af begreberne, lavede vi en forespørgsel til konceptet URI direkte ved hjælp af skos_concept parameteren (en af API'ens søgeparametre).
Vi var interesserede i at holde styr på de objekter, der blev brugt til at samle vores datasæt. For hvert hentet objekt lagrede vi relevante oplysninger i en CSV-fil. Billederne skal i sidste ende downloades og gemmes på disken for at træne billedklassifikationsmodellen.
Læs mere
Billedtræningsdatasættet kan nu bruges til at opbygge en billedklassifikationsmodel, der vil producere et af begreberne i ordforrådet givet et inputbillede. Vi planlægger at fortsætte vores arbejde ved at vurdere, om dette datasæt indeholder tilstrækkelige oplysninger til at træne en billedklassifikationsmodel, og vurdere, om den resulterende model er egnet til automatisk berigelse. Vi vil dele opdateringer gennem Europeana Pro nyheder!
Vi håber, at dette indlæg opfordrer ingeniører og forskere, der er interesserede i at eksperimentere med kulturarv, til at bruge vores søge-API til at samle datasæt til maskinindlæring og især til at bruge vores samlinger til træning og anvendelse af computervisionsalgoritmer! Du er velkommen til at tjekke Github-arkivet, hvor du kan finde de anvendte ordforråd, de indsamlede datasæt og kode til at høste datasættet og træne en billedklassificeringsmodel. Glem ikke at kontakte os på [email protected], hvis du har spørgsmål, idéer eller erfaringer at dele!
Hvis du er interesseret i at lære mere om kunstig intelligens og digital kulturarv, kan du udforske vores AI-tema på Europeana Pro.
