Kulttuuriperinnön metatietojen rikastaminen paremmilla tunnisteilla ja kuvauksilla helpottaa näiden kulttuuriperintökohteiden etsimistä ja löytämistä, mikä tarkoittaa, että löydät tarvitsemasi nopeammin ja helpommin. Tietotekniikan ja tekoälyn viimeaikainen kehitys tarjoaa merkittäviä mahdollisuuksia kulttuuriperinnön metadatan automaattiseen rikastamiseen vähäisin resurssein. Ihmisten osallistuminen tähän työhön on kuitenkin edelleen tärkeää. CRAFTED-hankkeessa otamme käsityöperinnön tapaustutkimuksena luodaksemme, toteuttaaksemme ja testataksemme metodologiaa, jossa yhdistyvät algoritmit ja ihmisen suorittama validointi kulttuuriperinnön metadatan rikastamiseksi laajassa mittakaavassa.
Seuraavassa esitelty menetelmä koostuu neljästä päävaiheesta: tietojen analysointi; automaattinen väkevöiminen; ihmisten suorittama väkevöinnin validointi; ja rikasteiden jalostaminen validoinnin tulosten perusteella. Jokaisessa tämän prosessin vaiheessa käsittelimme useita ratkaisevia kysymyksiä. Millaisesta rikastamisesta on hyötyä erityyppisille tiedoille? Miten valitsemme asianmukaiset näytteet ihmisen validointia varten? Miten voidaan vahvistaa hyväksyttävät laatukynnykset automaattisille väkevöinneille?
Tietojen analysointi
Yksityiskohtaisen käsityksen saaminen rikastettavaksi valittujen kokoelmien metatiedoista ja sisällöstä sekä tapauskohtaisten rikastustavoitteiden määrittäminen on ratkaiseva ensimmäinen askel määriteltäessä vaatimuksia, jotka työkalujemme on täytettävä. On tärkeää tutkia kunkin metatietokentän eri kieliä ja semantiikkaa sekä tapaa, jolla niiden arvot on jäsennelty (esimerkiksi tarkasteltaessa kenttää, joka välittää paikkatietoa, voidaan havaita, että sen arvo on usein jäsennelty ”kaupunki/alue” -muodossa). Vastaavasti sisällön ominaisuuksia on tarkasteltava, jotta voidaan tunnistaa siitä johdettavissa olevat merkitykselliset ominaisuudet, ottaen huomioon esimerkiksi käytettävissä olevan kuvan resoluution ja tavan, jolla esineet esitetään kuvissa.
Automaattinen väkevöiminen
CRAFTED-hankkeessa olemme hyödyntäneet useita erilaisia työkaluja erilaisten kokoelmien, joilla on erilaiset ominaisuudet ja rikastustarpeet, tekstin metadatan ja sisällön analysointiin. Metatietojen analysoinnissa käytimme Ateenan kansallisen teknillisen yliopiston kehittämää SAGE-alustaa (Semantic Annotation and Generation of Enrichments). Foorumi pystyy analysoimaan tekstimuotoista metadataa eri kielillä ja tunnistamaan laajan valikoiman metadatassa mainittuja tapauskohtaisia käsitteitä (kuten materiaaleja ja tekniikoita). Se voi sitten yhdistää ne verkkotunnuskohtaisten sanastojen termeihin, kuten Europeana Fashion -tesaurukseen, joka kattaa muotiin liittyvät käsitteet. Se voi myös suorittaa yleisempää nimettyjen entiteettien poimintaa organisaatioiden, paikkojen ja ihmisten tunnistamiseksi ja yhdistää ne linkitettyihin avoimiin tietokantoihin, kuten Wikidataan.
Samalla kokeilimme useita työkaluja, jotka analysoivat kuvia ja videoita. Kokeilimme kahta päälähestymistapaa värintunnistukseen: ensimmäisessä lähestymistavassa erotetaan etuala taustasta, minkä jälkeen se yrittää erottaa havaitun etualan värin tai värit. Toinen lähestymistapa on pohjimmiltaan sama, mutta sitä avustaa koulutettu esineen havaitsemisalgoritmi. Yritimme myös havaita ja poimia kirjoitettua tekstiä kuvista OCR: n (Optical Character Recognition) avulla. Lopuksi poimimme tekstimuotoisia transkriptioita videoista, ja tulokset vaihtelivat puhutusta kielestä riippuen.
Ihmisen suorittama validointi
Menetelmän kolmannessa vaiheessa ihmisiä pyydetään tarkistamaan automaattisen huomautusvaiheen tulokset ja hyväksymään tai hylkäämään ne. Ihmisen validoijat voivat myös lisätä uusia huomautuksia, joita automaattinen algoritmi ei tunnista.
Myönnettäköön, että mitä enemmän näistä automaattisista merkinnöistä validoidaan, sitä parempi. Näitä automaattisia huomautuksia on kuitenkin tuhansia, ja ihmisten validoijien läpikäyminen on erittäin resurssi-intensiivinen prosessi. Joten sen sijaan tarkastelemme otosta huomautuksista, jotka on valittu, jotta voimme tehdä johtopäätöksiä kaikista automaattisista huomautuksista.
Otoksen valinnassa on otettava huomioon useita tekijöitä. Metatietojen analysointia varten otoksen on katettava erilaisia metatietokenttiä, joilla on eri tekstin pituudet, otettava huomioon varmuuspisteet, jotka niiden huomautuksille määritetyt huomautusalgoritmit (jotka viittaavat siihen, kuinka luottavaisesti he tuntevat olevansa oikeassa) ja niin edelleen. Samoin sisällön analysoinnissa näytteen on säilytettävä tasapainoinen esitys esineistä, joilla on erilaisia sisällön ominaisuuksia, esimerkiksi eri värejä ja erityyppisiä esineitä.

Inhimillisen palautteen analysointi rikastustemme tarkentamiseksi
Pyrimme analysoimaan annotaatioalgoritmiemme antamien automaattisten luotettavuuspisteiden ja inhimillisten arvioiden välistä korrelaatiota, jotta voimme määrittää, mikä on sopiva kynnys pitää automaattista annotaatiota pätevänä vai ei. Jos esimerkiksi ihmisillä on taipumus hyväksyä kaikki otosmerkinnät, joille automaattinen malli antoi vähintään 80 prosentin luottamuspisteen, voimme päättää, että kaikki kyseisen pisteen yläpuolella olevat merkinnät voidaan automaattisesti hyväksyä päteviksi. Ihmisen suorittamat validoinnit voivat myös auttaa meitä arvioimaan ja vertailemaan eri algoritmien tehokkuutta. Tämä viimeinen tavoite on hiljattain käynnistetyn joukkoistamiskampanjan tavoite, jonka tavoitteena on arvioida kahden eri värintunnistusalgoritmin tuottamia tuloksia. Voit myös auttaa meitä arvioimaan annotaatiomallejamme!
Lopuksi haluamme käyttää ihmisen palautetta parantamaan itse automaattisten algoritmien tarkkuutta. Vaikka koneoppimistekniikoihin perustuvien algoritmien uudelleenkoulutus ei kuulu CRAFTED-hankkeen tavoitteisiin, ihmisen palaute voi auttaa meitä muokkaamaan algoritmeja korkeamman tarkkuuden tulosten saavuttamiseksi.
Osallistu
Jos haluat auttaa meitä arvioimaan värintunnistusalgoritmiemme tuottamia tuloksia, pyydämme sinua osallistumaan johonkin seuraavista joukkoistamiskampanjoista:
