Obohacovanie zohráva zásadnú úlohu v činnostiach Europeany. V našom kontexte môže byť obohatenie definované ako generovanie metaúdajov z údajov poskytnutých našimi partnermi, čím sa pridáva pridaná hodnota k údajom, ktoré dostávame. Na indexovanie našich záznamov používame kombináciu originálnych a obohatených metaúdajov, čo nám umožňuje vytvárať funkcie, ktoré umožňujú ľuďom vyhľadávať a prehliadať naše zbierky a prijímať odporúčania. Dosiahnutie automatického obohacovania pomocou algoritmov strojového učenia je jedným z cieľov stratégie Europeany na roky 2020 – 2025, ktorou sa spúšťajú projekty, ako je Saint George on a Bike.
Tím výskumu a vývoja Europeany skúma, ako môžu techniky počítačového videnia (systémy, ktoré môžu dávať zmysel vizuálnym údajom) zlepšiť obohacovanie Europeany. Rozhodli sme sa začať pilotný projekt klasifikácie obrázkov, v rámci ktorého vytvoríme model, ktorý dokáže klasifikovať obrázky z digitalizovaných objektov kultúrneho dedičstva do súboru vopred vymedzených kategórií. Veríme, že systém vyškolený s vybranými kategóriami by sa ukázal ako užitočný pri obohacovaní našich zbierok.
Techniky hĺbkového učenia, založené na určitom type matematického modelu nazývaného neurónové siete, sú metódou voľby pre tento typ problému. Aby sme mohli trénovať neurónovú sieť, potrebujeme získať tréningový súbor údajov obsahujúci veľké množstvo obrázkov, ktoré sú už zaradené do vybraných kategórií. Jednoducho povedané: Ak ukážeme počítačový model obrazov a povieme modelu, že všetky tieto obrazy sú obrazy, trénujeme tento model, aby rozpoznal, či obrazy, ktoré nikdy nevidel, sú obrazom alebo nie.
Prvými krokmi potrebnými na vytvorenie modelu klasifikácie obrázkov bolo vybrať cieľovú slovnú zásobu a zhromaždiť súbor trénovacích údajov pomocou rozhrania Europeana Search API; Preskúmajte, ako sme to urobili nižšie.
Definovanie slovníka pre klasifikáciu
Kontrolované slovníky sú súbory vopred definovaných a jednoznačne identifikovaných pojmov, ktoré možno použiť na indexovanie údajov a zabezpečenie ich interoperability. Používanie slovníkov pri získavaní informácií je vhodným spôsobom organizácie a referenčného porovnávania poznatkov.
V Europeane používame pojmy zo slovníkov (identifikovaných jednotnými identifikátormi zdrojov, URI) ako súčasť metaúdajov na indexovanie predmetov kultúrneho dedičstva. V rámci tohto projektu sme sa zamerali na výber konceptov zo zbierky Europeana Entity Collection, ktoré sú rovnocenné s konceptmi z tezauru Getty Art and Architecture Thesaurus (AAT). Tento slovník bol pôvodne zhromaždený na organizovanie získavania obsahu pre naše tematické zbierky. Zahrnuli sme 20 kategórií, ako sú fotografie, maľby, sochy, oblečenie a šperky.
Prístup k údajom pomocou rozhrania API vyhľadávania Europeana
Keď sme mali slovnú zásobu, chceli sme získať prístup k obrázkom patriacim do rôznych kategórií, aby sme mohli trénovať náš model. Urobili sme to prostredníctvom vyhľadávacieho rozhrania Europeana Search API, jedného z mnohých rozhraní, ktoré nám umožňujú vyhľadávať predmety kultúrneho dedičstva zobrazené na stránke europeana.eu. Za predpokladu dotazu a množiny parametrov, Search API vráti strojovo čitateľnú odpoveď obsahujúcu metadáta výsledných objektov. Odpoveď API slúži údajom podľa dátového modelu Europeany.
V našom nastavení sme usúdili, že pre každý obrázok existuje len jedna možná kategória. To nám umožnilo zostaviť anotovaný súbor údajov vyhľadávaním vo vyhľadávacom rozhraní API pre obrázky zodpovedajúce rôznym pojmom v našej slovnej zásobe a použitím tohto pojmu ako označenia. Týmto spôsobom sme súbor údajov zostavili automaticky a nebola potrebná žiadna manuálna anotácia.
Keďže sme chceli, aby sa náš súbor údajov riadil zásadami FAIR (vyhľadateľný, prístupný, interoperabilný a opätovne použiteľný), jednoznačne sme identifikovali koncepty aj získané objekty kultúrneho dedičstva a používali sme len obsah s otvorenou licenciou. Metaúdaje, ktoré poskytuje vyhľadávacie rozhranie API, podliehajú otvorenej licencii, zatiaľ čo obsah predmetov kultúrneho dedičstva môže podliehať autorským právam. V prípade tohto pilotného projektu sme považovali obrázky za obrázky bez autorských práv len tak, že sme parameter opätovnej použiteľnosti nastavili ako otvorený.
V našom prípade sme chceli získať objekty indexované rôznymi pojmami slovnej zásoby. Namiesto použitia ľudsky čitateľnej verzie konceptov sme zadali dotaz na koncept URI priamo pomocou parametra skos_concept (jeden z vyhľadávacích parametrov API).
Mali sme záujem sledovať objekty použité na zostavenie nášho súboru údajov. Pre každý načítaný objekt sme uložili relevantné informácie do súboru CSV. Obrázky sa nakoniec budú musieť stiahnuť a uložiť na disk, aby bolo možné trénovať model klasifikácie obrázkov.
Ďalšie informácie
Súbor údajov na školenie obrázkov sa teraz môže použiť na vytvorenie modelu klasifikácie obrázkov, ktorý vyprodukuje jeden z pojmov slovnej zásoby so vstupným obrázkom. Plánujeme pokračovať v našej práci tým, že vyhodnotíme, či tento súbor údajov obsahuje dostatok informácií na trénovanie modelu klasifikácie obrázkov a posúdime, či je výsledný model vhodný na automatické obohatenie. Aktualizácie budeme zdieľať prostredníctvom noviniek Europeana Pro!
Dúfame, že tento príspevok povzbudí inžinierov a výskumníkov, ktorí majú záujem experimentovať s kultúrnym dedičstvom, aby používali naše vyhľadávacie rozhranie API na zostavovanie súborov údajov pre strojové učenie, a najmä aby používali naše zbierky na školenie a aplikáciu algoritmov počítačového videnia! Neváhajte sa pozrieť na úložisko Github, kde nájdete použité slovníky, zhromaždené súbory údajov a kód na zber súboru údajov a školenie modelu klasifikácie obrázkov. Ak máte akékoľvek otázky, nápady alebo skúsenosti, nezabudnite nás kontaktovať na adrese [email protected]!
Ak máte záujem dozvedieť sa viac o umelej inteligencii a digitálnom kultúrnom dedičstve, preskúmajte našu tému umelej inteligencie na portáli Europeana Pro.
