Obogaćivanje ima ključnu ulogu u aktivnostima Europeane. U našem kontekstu, obogaćivanje se može definirati kao generiranje metapodataka iz podataka koje pružaju naši partneri, dodajući dodatnu vrijednost podacima koje primamo. Koristimo kombinaciju originalnih i obogaćenih metapodataka za indeksiranje naših zapisa, a to nam omogućuje izgradnju funkcionalnosti koje ljudima omogućuju pretraživanje i pregledavanje naših zbirki te primanje preporuka. Postizanje automatskog obogaćivanja s pomoću algoritama strojnog učenja jedan je od ciljeva strategije Europeana za razdoblje 2020. 2025., kojim se pokreću projekti kao što je Saint George on a Bike.
Europeanin tim za istraživanje i razvoj istražuje kako tehnike računalnog vida (sustavi koji mogu imati smisla za vizualne podatke) mogu poboljšati obogaćivanje koje Europeana provodi. Odlučili smo pokrenuti pilot-projekt o klasifikaciji slika, u kojem gradimo model koji može klasificirati slike iz digitaliziranih objekata kulturne baštine u skup unaprijed definiranih kategorija. Vjerujemo da bi se sustav treniran s odabranim kategorijama pokazao korisnim u obogaćivanju naših zbirki.
Tehnike dubokog učenja, koje se temelje na određenoj vrsti matematičkog modela zvanog neuronske mreže, metoda su izbora za ovu vrstu problema. Kako bismo osposobili neuronsku mrežu, moramo dobiti skup podataka za osposobljavanje koji sadržava veliku količinu slika koje su već razvrstane u odabrane kategorije. Jednostavnim riječima: ako prikazujemo računalne modele slika i kažemo modelu da su sve te slike slike slike, treniramo taj model kako bismo prepoznali jesu li slike koje nikada nije vidio slike ili ne.
Prvi koraci potrebni za izradu modela klasifikacije slika bili su odabir ciljnog rječnika i prikupljanje skupa podataka za osposobljavanje s pomoću API-ja za pretraživanje Europeana; Istražite kako smo to učinili u nastavku.
Definiranje rječnika za klasifikaciju
Kontrolirani rječnici skupovi su unaprijed definiranih i jedinstveno identificiranih koncepata koji se mogu koristiti za indeksiranje podataka i njihovu interoperabilnost. Korištenje rječnika u dohvatu informacija prikladan je način organiziranja i usmjeravanja znanja.
U Europeani koristimo koncepte iz rječnika (identificiranih jedinstvenim identifikatorima resursa, URI-jevima) kao dio metapodataka za indeksiranje objekata kulturne baštine. Za ovaj projekt, usredotočili smo se na izbor koncepata iz Europeana Entity Collection, koji imaju ekvivalente s konceptima iz Getty Art and Architecture Thesaurus (AAT). Taj je vokabular izvorno prikupljen kako bi se organizirala nabava sadržaja za naše tematske zbirke. Uključili smo 20 kategorija kao što su fotografije, slike, skulpture, odjeća i nakit.
Pristup podacima s pomoću API-ja za pretraživanje Europeana
Nakon što smo imali naš vokabular, željeli smo pristupiti slikama koje pripadaju različitim kategorijama za obuku našeg modela. To smo učinili putem API-ja za pretraživanje Europeana, jednog od mnogih sučelja koja nam omogućuju dohvaćanje predmeta kulturne baštine prikazanih na stranici europeana.eu. S obzirom na upit i skup parametara, API za pretraživanje vratit će strojno čitljiv odgovor koji sadržava metapodatke dobivenih objekata. Odgovor API-ja služi podacima u skladu s podatkovnim modelom Europeana.
U našem okruženju, smatrali smo da postoji samo jedna moguća kategorija za svaku sliku. To nam je omogućilo da sastavimo skup podataka s komentarima pretraživanjem API-ja za pretraživanje slika koje odgovaraju različitim konceptima u našem vokabularu i upotrebom tog koncepta kao oznake. Na taj smo način automatski sastavili skup podataka i nije bila potrebna ručna zabilješka.
Budući da smo željeli da naš skup podataka slijedi načela FAIR (pronalaženja, pristupačne, interoperabilne i ponovno upotrebljive), jedinstveno smo identificirali i koncepte i pronađene predmete kulturne baštine, a upotrebljavali smo samo sadržaj s otvorenom licencom. Metapodaci kojima se služi API za pretraživanje imaju otvorenu licencu, dok sadržaj predmeta kulturne baštine može podlijegati autorskim pravima. Za ovaj pilot smatrali smo slike bez autorskih prava samo postavljanjem parametra ponovne uporabljivosti kao otvorenog.
U našem slučaju, željeli smo dohvatiti objekte indeksirane s različitim konceptima vokabulara. Umjesto korištenja ljudske čitljive verzije koncepata, postavili smo upit za koncept URI izravno pomoću parametra skos_concept (jedan od parametara pretraživanja API-ja).
Bili smo zainteresirani za praćenje objekata korištenih za sastavljanje našeg skupa podataka. Za svaki dohvaćeni objekt pohranili smo relevantne informacije u CSV datoteku. Slike će se na kraju morati preuzeti i pohraniti na disku za treniranje modela klasifikacije slika.
Saznajte više
Skup podataka za treniranje slike sada se može koristiti za izgradnju modela klasifikacije slike koji će izvesti jedan od koncepata vokabulara kojem je dana ulazna slika. Planiramo nastaviti s radom ocjenjujući sadržava li taj skup podataka dovoljno informacija za treniranje modela klasifikacije slika i procjenjujući je li dobiveni model prikladan za automatsko obogaćivanje. Mi ćemo dijeliti ažuriranja putem Europeana Pro vijesti!
Nadamo se da ovaj post potiče inženjere i istraživače zainteresirane za eksperimentiranje s kulturnom baštinom da koriste naš API za pretraživanje za sastavljanje skupova podataka za strojno učenje, a posebno da koriste naše zbirke za obuku i primjenu algoritama računalnog vida! Slobodno pogledajte Github repozitorij, gdje možete pronaći korištene rječnike, prikupljene skupove podataka i kod za prikupljanje skupa podataka i treniranje modela klasifikacije slika. Ne zaboravite nas kontaktirati na [email protected] ako imate pitanja, ideja ili iskustva za dijeljenje!
Ako želite saznati više o umjetnoj inteligenciji i digitalnoj kulturnoj baštini, istražite našu temu umjetne inteligencije na platformi Europeana Pro.
