Obohacování hraje v činnostech Europeany zásadní úlohu. V našem kontextu může být obohacení definováno jako generování metadat z dat poskytnutých našimi partnery, což zvyšuje hodnotu dat, která obdržíme. Pro indexaci našich záznamů používáme kombinaci původních a obohacených metadat, což nám umožňuje vytvářet funkce, které lidem umožňují vyhledávat a procházet naše sbírky a přijímat doporučení. Dosažení automatického obohacování pomocí algoritmů strojového učení je jedním z cílů strategie Europeana na období 2020–2025,která podněcuje projekty, jako je Saint George on a Bike.
Tým Europeany pro výzkum a vývoj zkoumá, jak mohou techniky počítačového vidění (systémy, které mohou dávat smysl vizuálním datům) zlepšit obohacování chování Europeany. Rozhodli jsme se zahájit pilotní projekt klasifikace obrazů, kde vytvoříme model, který je schopen klasifikovat obrazy z digitalizovaných objektů kulturního dědictví do souboru předdefinovaných kategorií. Věříme, že systém vyškolený s vybranými kategoriemi by byl užitečný při obohacování našich sbírek.
Techniky hlubokého učení, založené na určitém typu matematického modelu zvaného neuronové sítě, jsou metodou volby pro tento typ problému. Abychom mohli trénovat neuronovou síť, musíme získat tréninkovou datovou sadu obsahující velké množství snímků již klasifikovaných do vybraných kategorií. Jednoduše řečeno: Ukážeme-li počítačovému modelu obrazy obrazů a řekneme-li modelu, že všechny tyto obrazy jsou obrazy, trénujeme tento model, aby rozpoznal, zda obrazy, které nikdy neviděl, jsou obrazem, či nikoli.
Prvními kroky nezbytnými pro vytvoření modelu klasifikace obrazu bylo vybrat cílovou slovní zásobu a shromáždit soubor tréninkových dat pomocí rozhraní API pro vyhledávání Europeana; Podívejte se, jak jsme to udělali níže.
Definování slovníku pro klasifikaci
Řízené slovníky jsou sady předem definovaných a jedinečně identifikovaných pojmů, které lze použít k indexaci dat a zajištění jejich interoperability. Použití slovníků při vyhledávání informací je pohodlný způsob, jak organizovat a odkazovat na znalosti.
V Europeaně používáme pojmy ze slovníků (identifikovaných jednotnými identifikátory zdrojů, URI) jako součást metadat pro indexaci objektů kulturního dědictví. Pro tento projekt jsme se zaměřili na výběr konceptů ze sbírky Europeana Entity Collection, které mají ekvivalenci s koncepty z Getty Art and Architecture Thesaurus (AAT). Tento slovník byl původně shromážděn za účelem organizace získávání obsahu pro naše tematické sbírky. Zahrnuli jsme 20 kategorií, jako jsou fotografie, obrazy, sochy, oblečení a šperky.
Přístup k datům pomocí Europeana Search API
Jakmile jsme měli naši slovní zásobu, chtěli jsme získat přístup k obrázkům patřícím do různých kategorií pro výcvik našeho modelu. Učinili jsme tak prostřednictvím rozhraní Europeana Search API, jednoho z mnoha rozhraní, která nám umožňují vyhledávat předměty kulturního dědictví zobrazené na stránkách europeana.eu. Při zadání dotazu a sady parametrů vrátí rozhraní Search API strojově čitelnou odpověď obsahující metadata výsledných objektů. Odpověď API slouží údajům podle datového modelu Europeana.
V našem nastavení jsme usoudili, že pro každý obrázek existuje pouze jedna možná kategorie. To nám umožnilo sestavit anotovanou datovou sadu dotazem na vyhledávací API pro obrázky odpovídající různým pojmům v našem slovníku a použít tento koncept jako štítek. Tímto způsobem jsme sestavili datový soubor automaticky a nebyla nutná žádná manuální anotace.
Vzhledem k tomu, že jsme chtěli, aby se náš datový soubor řídil zásadami FAIR (vyhledatelné, přístupné, interoperabilní a opakovaně použitelné), jednoznačně jsme identifikovali jak koncepty, tak objekty kulturního dědictví, které jsme získali, a používali jsme pouze otevřeně licencovaný obsah. Metadata poskytovaná rozhraním Search API podléhají otevřené licenci, zatímco obsah předmětů kulturního dědictví může podléhat autorskému právu. U tohoto pilotního projektu jsme považovali obrázky za bez autorských práv pouze nastavením parametru opětovné použitelnosti jako otevřené.
V našem případě jsme chtěli načíst objekty indexované různými pojmy slovní zásoby. Namísto použití lidsky čitelné verze konceptů jsme provedli dotaz na koncept URI přímo pomocí parametru skos_concept (jeden z vyhledávacích parametrů API).
Zajímali jsme se o sledování objektů použitých k sestavení našeho datového souboru. Pro každý načtený objekt jsme uložili relevantní informace do souboru CSV. Snímky budou nakonec muset být staženy a uloženy na disku pro školení modelu klasifikace obrazu.
Zjistit více
Soubor obrazových tréninkových dat lze nyní použít pro sestavení modelu klasifikace obrazu, který bude výstupem jednoho z konceptů slovníku zadaného vstupnímu obrazu. Plánujeme pokračovat v naší práci tím, že vyhodnotíme, zda tato datová sada obsahuje dostatek informací pro školení modelu klasifikace obrazu, a posoudíme, zda je výsledný model vhodný pro automatické obohacování. Budeme sdílet aktualizace prostřednictvím Europeana Pro novinky!
Doufáme, že tento příspěvek povzbuzuje inženýry a výzkumné pracovníky, kteří mají zájem experimentovat s kulturním dědictvím, aby používali naše vyhledávací API pro sestavování datových souborů pro strojové učení, a zejména aby používali naše sbírky pro školení a aplikaci algoritmů počítačového vidění! Neváhejte se podívat do repozitáře Github, kde najdete použité slovníky, shromážděné datové soubory a kód pro sklizeň datového souboru a školení modelu klasifikace obrazu. Pokud máte jakékoli dotazy, nápady nebo zkušenosti, napište nám na adresu [email protected].
Pokud máte zájem dozvědět se více o umělé inteligenci a digitálním kulturním dědictví, prozkoumejte téma umělé inteligence na Europeaně Pro.
