Monimerkkinen luokitusmalli
Kuten aiemmissa Pro-uutisjulkaisuissa on todettu, Europeana-säätiössä on toteutettu kuvaluokituspilotti, jossa on koulutettu yhden merkin kuvaluokitusmalli kokoelmiemme rikastuttamiseksi. Kehittämämme malli pystyi luokittelemaan kuvat luokkiin kohdesanastostamme, mutta siinä yksilöitiin vain yksi näkökohta (tai ”etiketti”) kustakin kuvasta. Tämän jälkeen ryhdyimme kouluttamaan mallia useamman kuin yhden merkin sisältävän kuvan luokittelemiseksi, jotta käsitteet, kuten ”valokuva” ja ”veistos”, voitaisiin tunnistaa samasta kuvasta.
Tämän monimerkkikuvan luokittelumallin kouluttamiseksi meidän oli kerättävä koulutusaineisto, joka sisälsi metatiedoissaan useita tunnisteita sisältäviä kuvia. Hyödynsimme Europeana Search API:a etsimällä sanastostamme kohteita, jotka on indeksoitu useammalla kuin yhdellä käsitteellä, jolloin tuloksena oli yhteensä 9 000 kohdetta. Kuten aiemmissakin yhden merkin luokitustoimissa, tilintarkastustuomioistuin ei tarkastellut tätä tietoaineistoa, joten merkintöjen laatu riippui aiempien rikasteiden laadusta.
Kun kyseessä on monimerkkiluokitus, oikeat metatiedot (tai perustotuus) sisälsivät useamman kuin yhden merkin kutakin kuvaa kohti. Koulutimme konvolutiivisen neuroverkon luokittelemaan kuvat ja sitten käytimme tuloksena olevaa mallia Search API: sta saaduista esineistä. Alla on esimerkkejä niiden ennusteista, luotettavuuspisteistä ja tulkittavuuskartoista.

Oppimisemme
Kokeistamme olemme päätelleet, että malli pystyy tunnistamaan oikein useita asiaankuuluvia tarroja annetuista kuvista. Multilabel-lähestymistapa on hyödyllisempi kuin yksittäisten tarrojen käyttö, koska se voi käyttää useita tarroja jokaiseen kuvaan suurella varmuudella.
Mielenkiintoisista tuloksista huolimatta tuloksena olevan mallin suorituskyky on kaukana täydellisestä, ja voimme liittää tämän useisiin tekijöihin. Tärkeintä on kerätyn aineiston suhteellisen heikko laatu. Tilintarkastustuomioistuin havaitsi, että monissa haetuissa kuvissa ei ole oikeita metatietoja.
Lisäksi suurin osa koulutukseen käytetyistä tiedoista saatiin Norjan DigitalMuseumilta. Tämä tarkoittaa, että koulutusdata ei vastaa Europeanan koko datajakaumaa, minkä vuoksi malli on puolueellinen siihen dataan nähden, jolla sitä on koulutettu. Koulutustietojen vinoumat johtavat siihen, että Europeanan muita kuvia ei yleistetä. Yksinkertaisesti sanottuna malli toimii hyvin harjoitusaineiston sisältämien kuvien kaltaisissa kuvissa, mutta se epäonnistuu, jos kuvat ovat liian erilaisia.
Yleisesti ottaen harjoitustietomme ovat riittävän hyviä, jotta malli oppii joitakin perusmalleja. Malli pärjäsi hyvin, vaikka tietojen käyttäminen virheellisillä merkinnöillä oli haastavaa. Aiempien rikasteiden laatu ei kuitenkaan sovellu käytettäväksi koulutustietona mallin rakentamisessa kokoelmiemme rikastamiseksi. Ratkaisu tähän on luoda laadukkaampi koulutusaineisto, jolla varmistetaan, että mallimme esitetään oikeilla merkinnöillä.
Tuleva työ: joukkoistaminen
Kun olemme kouluttaneet ja arvioineet monimerkkiluokitusmallin, olemme päätelleet, että useiden tarrojen liittäminen mallistomme kuviin on sopivampaa kuin niiden täydentäminen yhdellä tarralla.
Harkitsemme sanaston laajentamista sisällyttämällä siihen muita kulttuuriperintöön liittyviä termejä. Vielä tärkeämpää on, että aiomme tarkistaa ja laajentaa koulutusaineistoa, jonka tavoitteena on tunnistaa ja korjata mahdolliset vinoumat ja virheet. Haluamme varmistaa, että mallimme on varustettu oikeilla merkinnöillä, joiden odotetaan toimivan huomattavasti paremmin kuin meluisilla merkinnöillä. Olemme käynnistäneet joukkoistamiskampanjan korkealaatuisen selityksin varustetun tietoaineiston rakentamiseksi Zooniversen kanssa, ja olemme tyytyväisiä yhteisömme panokseen.
Voit seurata työtämme tässä Github-tietokannassa. Kutsumme sinut myös kokeilemaan tätä Colab-muistikirjaa, jossa voit tehdä omia kyselyjä Europeana Search API: lle ja soveltaa monimerkkiluokitusmallia. Ota rohkeasti yhteyttä osoitteeseen [email protected], jos sinulla on kysyttävää tai ideoita!
