Kuvaluokitusmallimme kouluttaminen

Julkaistu 2. kesäkuuta 2021

Yhden merkin luokitusmalli

Kuvaluokituspilottia varten keräämämme aineisto soveltui yhden merkin luokitusmallin kouluttamiseen - eli malliin, joka tuottaa yhden luokan kuvaa kohti. Koulutusdata-aineiston merkintöjä tai luokkia kutsutaan myös ”perustotuudeksi”, mikä tarkoittaa, että ne ovat annettujen kuvien oikeita tai oikeita merkintöjä.

Käytimme kuvien luokittelijana eräänlaista konvolutiivista hermoverkkoa, joka on matemaattista mallia, jossa on kerroksittainen rakenne, joka on innoittamana aivojen toiminnasta. Konvoluutiohermoverkko on syväoppimismalli, joka on suunniteltu poimimaan asiaankuuluvia tietoja kuvista, ja ne ovat tavanomainen valinta tietokonenäkösovelluksiin.

Meidän tapauksessamme mallin syöte oli kuva, ja tuotos oli todennäköisyysjakauma kaikissa kohdesanaston luokissa. Se antoi jokaiselle luokalle numeron 0: n ja 1: n välillä, joka tulkitaan usein luottamuspisteiksi. Tätä mallia koulutettiin sitten iteratiivisesti ennustamalla kuvia aineistosta ja korjaamalla tuloksena olevat ennusteet vertaamalla niitä todelliseen pohjatotuuteen.

Kun malli oli koulutettu, arvioimme sen suorituskykyä testaamalla sitä näkymättömillä kuvilla ja vertaamalla sitä, vastasiko mallin tekemä ennuste kuvassa kuvattua käsitettä. Käytimme myös selittävää tekoälyalgoritmia, joka auttoi meitä ymmärtämään mallin tuotoksen visualisoimalla kunkin tuotosluokan kiinnostavat alueet. Tämä antoi meille mahdollisuuden ymmärtää kuvan alueet, jotka ovat merkityksellisimpiä kullekin luokalle, mikä antoi vihjeitä mallin sisäisestä toiminnasta.

Alla on useita esimerkkejä Search API -sovellusliittymän avulla saatujen näytteiden ennusteista sekä luotettavuuspistemäärät ja selitettävyyskartat. Malli käyttää seuraavia kuvia: aanzicht, Beeldbank van de Rijksdienst voor het Cultureel Erfgoed, Alankomaat, G.Th. Delemarre, 1965-03, CC-BY-SA. Lerkärl, kärl, vessel@eng, Vasija, Världskulturmuseet, Ruotsi, CC-BY. Esimene rohelus, Eesti Sõjamuuseum - Kindral Laidoneri Muuseum, Viro, Genin, CC0.

Oppimisemme

Aiemmista tuloksista voimme nähdä, että malli pystyi onnistuneesti kaappaamaan annettujen kuvien sanaston tärkeimmät käsitteet. Vaikka malli on kaukana täydellisestä, se voi oppia rikastetuista kokoelmistamme ja sitä voidaan soveltaa uusiin kuviin mahdollisesti hyödyllisen metatiedon tuottamiseksi.

Lähestymistapamme suurin rajoitus on se, että sanaston käsitteet eivät ole eksklusiivisia, mikä ei sovi hyvin yhteen yhden kuvakohtaisen luokan kanssa. Esimerkiksi kuva voi olla valokuva ja sisältää sekä rakennuksen että veistoksen, mutta yhden merkin lähestymistavan ansiosta voimme vain kouluttaa ja arvioida malliamme tunnistamaan yhden näistä näkökohdista.

Tämä antaa meille mallin, joka tuottaa usein korkean luottamuspisteen vain yhdelle luokalle, ja luottamus muihin luokkiin on alhainen. Asettamalla matalan kynnyksen tuotoksen luottamuspisteille voimme saada tuotoksena useamman kuin yhden merkinnän. Tämä lähestymistapa ei kuitenkaan ole ihanteellinen, koska kaikkien luottamuspisteiden on laskettava yhteen (kuten missä tahansa oikeudellisessa todennäköisyysjakaumassa), mikä estää korkeat luottamusarvot, jos sanastossa on useita luokkia.

Ihannetapauksessa mallimme olisi monimerkkiluokitus - malli, joka on koulutettu useammalla kuin yhdellä tarralla kuvaa kohti ja joka pystyy tuottamaan korkeat luottamuspisteet useille luokille.

On myös syytä mainita, että tietoaineistomme on koottu ilman ihmisen valvontaa (emme tarkastelleet saatuja kuvia tai tarkistaneet, ovatko ne todellakin luokkien mukaisia). Tämä tarkoittaa sitä, että aineiston laatu riippuu kulttuuriperintökohteisiin liittyvästä metadatasta ja aikaisemmista metadataan perustuvista automaattisista rikasteista. Käytännössä kaikki koulutusaineiston kuvat eivät olleet oikeiden luokkien mukaisia.

Seuraavat vaiheet

Kokoamme parhaillaan koulutusaineistoa monimerkkiluokitusta varten ja jaamme työmme ja lähestymistapamme tulevassa Pro-uutisviestissä - pysy kuulolla! Sillä välin voit tutustua pilotin Github-arkistoomme ja tähän Colab-muistikirjaan, jossa voit tehdä omia kyselyjä Europeana Search API: lle ja soveltaa yhden tarran luokitusmallia.

Ota rohkeasti yhteyttä osoitteeseen [email protected], jos sinulla on kysyttävää tai ideoita!

Kuvaluokitusmallimme kouluttaminen

Jaa

Yhden merkin luokitusmalli

Oppimisemme

Seuraavat vaiheet

Tutustu aiheeseen liittyvään sisältöön