Klasifikacijski model s više oznaka
Kao što je istraženo u prethodnim objavama za medije Pro, u Zakladi Europeana vodimo pilot-projekt za klasifikaciju slika, u okviru kojeg osposobljavamo jedinstveni model klasifikacije slika kako bismo obogatili svoje zbirke. Model koji smo razvili mogao je klasificirati slike u kategorije iz našeg ciljanog vokabulara, ali je identificirao samo jedan aspekt (ili „oznaku”) svake slike. Stoga smo počeli raditi na osposobljavanju modela za klasifikaciju slike s više od jedne oznake, tako da se pojmovi kao što su „fotografija” i „skulptura” mogu identificirati na istoj slici.
Kako bismo trenirali ovaj model klasifikacije slika s više oznaka, morali smo prikupiti skup podataka za obuku koji sadrži slike s više oznaka u njihovim metapodacima. Koristili smo Europeana Search API pretraživanjem objekata indeksiranih s više od jednog koncepta iz našeg vokabulara, što je rezultiralo s ukupno 9.000 objekata. Kao i u prijašnjim nastojanjima u pogledu klasifikacije pojedinačnih oznaka, Sud nije pregledao taj skup podataka, pa je kvaliteta oznaka ovisila o kvaliteti prethodnih obogaćivanja.
U slučaju klasifikacije s više oznaka, točni metapodaci (ili temeljna istina) sadržavali su više oznaka za svaku sliku. Obučili smo konvolucijsku neuronsku mrežu za klasifikaciju slika, a zatim smo koristili dobiveni model na objektima dobivenim iz API-ja za pretraživanje. Neke od primjera možete vidjeti s njihovim predviđanjima, ocjenama pouzdanosti i kartama interpretabilnosti u nastavku.

Naša učenja
Iz naših eksperimenata zaključili smo da je model u stanju ispravno identificirati više relevantnih oznaka za dane slike. Pristup s više oznaka korisniji je od upotrebe pojedinačnih oznaka jer s velikom pouzdanošću može primijeniti nekoliko oznaka na svaku sliku.
Unatoč zanimljivim rezultatima, izvedba dobivenog modela daleko je od savršenog, a to možemo pripisati nekoliko čimbenika. Najvažnija je relativno niska kvaliteta prikupljenih podataka. Sud je utvrdio da mnoge od preuzetih slika nemaju točne metapodatke.
Osim toga, većinu podataka upotrijebljenih za osposobljavanje dostavio je norveški DigitalMuseum. To znači da podaci o osposobljavanju ne odražavaju cjelokupnu distribuciju podataka na Europeani, zbog čega je model pristran prema podacima s kojima je treniran. Predrasude u podacima o osposobljavanju pretočit će se u nedostatak generalizacije za ostale slike Europeane. Jednostavnim riječima, model će dobro funkcionirati na slikama sličnima onima sadržanima u skupu podataka za treniranje, ali neće uspjeti ako su slike previše različite.
Općenito, naši podaci o osposobljavanju dovoljno su dobri da model nauči neke osnovne obrasce. Model je dobro funkcionirao unatoč zahtjevnom okruženju upotrebe podataka s netočnim oznakama. Međutim, kvaliteta prethodnih obogaćivanja nije prikladna za njihovo korištenje kao podataka za obuku za izgradnju modela za obogaćivanje naših zbirki. Rješenje za to je stvaranje kvalitetnijeg skupa podataka za obuku, kako bi se osiguralo da naš model ima odgovarajuće oznake.
Budući rad: crowdsourcing
Nakon treninga i evaluacije višestrukog klasifikacijskog modela, zaključili smo da je dodjeljivanje višestrukih oznaka slikama iz naše kolekcije prikladnije nego njihovo obogaćivanje jednom oznakom.
Razmatramo proširenje vokabulara uključivanjem drugih pojmova relevantnih za kulturnu baštinu. Što je još važnije, planiramo pregledati i proširiti skup podataka o osposobljavanju s ciljem utvrđivanja i ispravljanja mogućih pristranosti i pogrešaka. Željeli bismo osigurati da naš model bude predstavljen s pravim naljepnicama, za koje se očekuje da će biti znatno bolje nego kada se trenira s 'bučnim' naljepnicama. Pokrenuli smo kampanju crowdsourcinga za izgradnju visokokvalitetnog skupa podataka s komentarima sa Zooniverseom i pozdravljamo doprinose naše zajednice.
Naš rad možete pratiti u ovom Github repozitoriju. Također vas pozivamo da eksperimentirate s ovim Colab prijenosnim računalom, gdje možete sami postavljati upite API-ju za pretraživanje Europeana i primijeniti model klasifikacije s više oznaka. Slobodno nas kontaktirajte na [email protected] ako imate bilo kakvih pitanja ili ideja!
