Tutvustame meie pildiklassifikatsiooni pilooti

Avaldatud 6. aprill 2021

Europeana tegevuses on oluline roll rikastamisel. Meie kontekstis võib rikastamist määratleda kui metaandmete genereerimist meie partnerite esitatud andmetest, lisades saadud andmetele lisaväärtust. Kasutame oma kirjete indekseerimiseks originaalsete ja rikastatud metaandmete kombinatsiooni ning see võimaldab meil luua funktsioone, mis võimaldavad inimestel meie kogusid otsida ja sirvida ning soovitusi saada. Automaatse rikastamise saavutamine masinõppe algoritmide abil on üks Europeana strateegia 2020–2025eesmärke, mis käivitab selliseid projekte nagu Saint George on a Bike.

Europeana uurimis- ja arendusmeeskond uurib, kuidas arvutinägemistehnikad (süsteemid, mis suudavad visuaalseid andmeid mõtestada) võivad Europeana käitumist rikastada. Otsustasime käivitada kujutiste klassifitseerimise katseprojekti, mille raames töötame välja mudeli, mis võimaldab liigitada digiteeritud kultuuripärandi objektide kujutised eelnevalt kindlaks määratud kategooriatesse. Usume, et valitud kategooriatega koolitatud süsteem oleks kasulik meie kollektsioonide rikastamisel.

Süvaõppe tehnikad, mis põhinevad teatud tüüpi matemaatilisel mudelil, mida nimetatakse närvivõrkudeks, on seda tüüpi probleemi valikumeetod. Närvivõrgu treenimiseks peame hankima treenimisandmestiku, mis sisaldab suurt hulka pilte, mis on juba liigitatud valitud kategooriatesse. Lihtsamalt öeldes: kui me näitame arvutimudeli pilte maalidest ja ütleme mudelile, et kõik need pildid on maalid, treenime seda mudelit ära tundma, kas pildid, mida ta pole kunagi näinud, on maal või mitte.

Esimesed sammud, mis olid vajalikud kujutiste klassifitseerimise mudeli loomiseks, olid sihtsõnavara valimine ja koolitusandmestiku kogumine Europeana otsingu API abil; Uurige, kuidas me seda allpool tegime.

Klassifitseerimise sõnavara määratlemine

Kontrollitud sõnastikud on eelnevalt määratletud ja üheselt määratletud mõistete kogumid, mida saab kasutada andmete indekseerimiseks ja nende koostalitlusvõimeliseks muutmiseks. Sõnastike kasutamine teabeotsingul on mugav viis teadmiste korraldamiseks ja neile viitamiseks.

Europeanas kasutame kultuuripärandi objektide indekseerimise metaandmete osana sõnastike (identifitseeritavad ühtsete ressursiidentifikaatorite (URI) abil) mõisteid. Selle projekti puhul keskendusime valikule Europeana üksuse kollektsiooni kontseptsioonidest, mis on samaväärsed Getty kunsti- ja arhitektuuritesauruse (AAT) kontseptsioonidega. See sõnavara koguti algselt selleks, et korraldada sisu hankimist meie temaatiliste kogude jaoks. Lisasime 20 kategooriat, nagu fotod, maalid, skulptuurid, riided ja ehted.

Andmetele juurdepääs Europeana otsingu API abil

Kui meil oli oma sõnavara, tahtsime oma mudeli koolitamiseks juurde pääseda erinevatesse kategooriatesse kuuluvatele piltidele. Tegime seda Europeana otsingu API kaudu, mis on üks paljudest liidestest, mis võimaldab meil leida veebisaidil europeana.eu kuvatavaid kultuuripärandi objekte. Päringu ja parameetrite kogumi korral tagastab otsingu API masinloetava vastuse, mis sisaldab saadud objektide metaandmeid. API vastuses kasutatakse andmeid vastavalt Europeana andmemudelile.

Oma seadetes leidsime, et iga pildi jaoks oli ainult üks võimalik kategooria. See võimaldas meil koostada annoteeritud andmekogumi, tehes päringu meie sõnavara erinevatele mõistetele vastavate piltide otsingu API-st ja kasutades seda mõistet sildina. Sel viisil kogusime andmekogumi automaatselt ja manuaalset märget ei olnud vaja.

Kuna soovisime, et meie andmestik järgiks FAIR-põhimõtteid (leitavad, juurdepääsetavad, koostalitlusvõimelised ja taaskasutatavad), tuvastasime üheselt nii mõisted kui ka saadud kultuuripärandi objektid ning kasutasime ainult avalikult litsentsitud sisu. Otsingu API teenindatavad metaandmed on avatud litsentsi all, samas kui kultuuripärandi objektide sisu võib olla autoriõigusega kaitstud. Selle katseprojekti puhul pidasime pilte autoriõiguseta piltideks ainult siis, kui määrasime taaskasutatavuse parameetri avatuks.

Meie puhul tahtsime leida objekte, mis on indekseeritud sõnavara erinevate mõistetega. Kontseptsioonide inimloetava versiooni kasutamise asemel tegime päringu kontseptsioonile URI otse, kasutades parameetrit skos_concept (üks API otsinguparameetreid).

Olime huvitatud meie andmekogumi koostamiseks kasutatud objektide jälgimisest. Iga leitud objekti kohta salvestasime asjakohase teabe CSV-faili. Lõpuks tuleb pildid alla laadida ja salvestada kettale, et treenida piltide klassifitseerimise mudelit.

Uuri lähemalt

Kujutise treenimise andmekogumit saab nüüd kasutada kujutise klassifitseerimise mudeli loomiseks, mis annab sisendkujutisele ühe sõnavara kontseptsiooni. Kavatseme oma tööd jätkata, hinnates, kas see andmekogum sisaldab piisavalt teavet kujutise klassifitseerimise mudeli treenimiseks, ja hinnates, kas saadud mudel sobib automaatseks rikastamiseks. Jagame uudiseid Europeana Pro uudiste kaudu!

Loodame, et see postitus julgustab kultuuripärandi katsetamisest huvitatud insenere ja teadlasi kasutama meie otsingu API-d masinõppe andmekogumite koostamiseks ning eelkõige kasutama meie kogusid arvutinägemisalgoritmide koolitamiseks ja rakendamiseks! Võite vabalt tutvuda Githubi hoidlaga, kust leiate kasutatud sõnavarad, kogutud andmekogumid ja koodi andmekogumi kogumiseks ja kujutise klassifitseerimise mudeli treenimiseks. Kui teil on küsimusi, ideid või kogemusi, võtke meiega ühendust aadressil [email protected].

Kui olete huvitatud tehisintellekti ja digitaalse kultuuripärandi kohta lisateabe saamisest, tutvuge meie tehisintellekti teemaga Europeana Pro veebisaidil.

Tutvustame meie pildiklassifikatsiooni pilooti

Jaga

Klassifitseerimise sõnavara määratlemine

Andmetele juurdepääs Europeana otsingu API abil

Uuri lähemalt

Avasta seotud sisu