Képosztályozási modellünk képzése

Közzétéve 2021. június 2.

Az egycímkés osztályozás mintája

A képosztályozási kísérletünkhöz összegyűjtött adatkészlet alkalmas volt egy egységes címkeosztályozási modell képzésére - vagyis egy olyan modellre, amely képenként egyetlen kategóriát ad ki. A képzési adatkészletben szereplő címkéket vagy kategóriákat „alapigazságnak” is nevezik, ami azt jelenti, hogy ezek az adott képek valódi vagy helyes címkéi.

A képek osztályozásához egyfajta konvolúciós neurális hálózatot használtunk, amely egy olyan matematikai modell, amelynek réteges szerkezetét az agy működése ihlette. A konvolúciós neurális hálózat egy mély tanulási modell, amelynek célja a releváns információk kinyerése a képekből, és ezek a szokásos választás a számítógépes látási alkalmazásokhoz.

Esetünkben a modell bemenete kép volt, a kimenet pedig valószínűségi eloszlás a célszókincs minden kategóriájában. Minden kategóriának adott egy 0 és 1 közötti számot, amelyet gyakran megbízhatósági pontszámként értelmeznek. Ezt a modellt ezután az adatkészletből származó képek iteratív előrejelzésével képezték ki, és az így kapott előrejelzéseket korrigálták a tényleges alapigazsággal való összehasonlítással.

A modell betanítása után a teljesítményét úgy értékeltük, hogy láthatatlan képeken teszteltük, és összehasonlítottuk, hogy a modell által készített előrejelzés megfelel-e a képen ábrázolt koncepciónak. Alkalmaztunk egy magyarázható MI-algoritmust is, amely segített megérteni a modell kimenetét azáltal, hogy megjelenítette az egyes kimeneti kategóriák érdeklődési területeit. Ez lehetővé tette számunkra, hogy megértsük a kép azon területeit, amelyek a leginkább relevánsak az egyes kategóriák számára, ami nyomokat adott a modell belső működéséről.

Az alábbiakban számos példát láthat a keresési API használatával kapott mintákra vonatkozó előrejelzésekre, valamint a megbízhatósági pontszámokra és a megmagyarázhatósági térképekre. A modell a következő képeket használja: aanzicht, Beeldbank van de Rijksdienst voor het Cultureel Erfgoed, Hollandia, G.Th. Delemarre, 1965–03, CC-BY-SA. Lerkärl, kärl, vessel@eng, Vasija, Världskulturmuseet, Svédország, CC-BY. Esimene rohelus, Eesti Sõjamuuseum - Kindral Laidoneri Muuseum, Észtország, Genin, CC0.

Tanulásaink

A korábbi eredményekből látható, hogy a modell képes volt sikeresen rögzíteni az adott képek szókincsének legrelevánsabb fogalmait. Bár messze nem tökéletes, a modell tanulhat gazdagított gyűjteményeinkből, és új képekre is alkalmazható, hogy potenciálisan hasznos metaadatokat generáljon.

Megközelítésünk fő korlátja, hogy a szókincs fogalmai nem kizárólagosak, és ez nem igazodik jól képenként egyetlen osztályhoz. Például egy kép lehet fénykép, és tartalmazhat egy épületet és egy szobrot is, de az egycímkés megközelítés miatt csak a modellünket képezhetjük és értékelhetjük, hogy azonosítsuk ezeket a szempontokat.

Ez egy olyan modellt ad nekünk, amely gyakran csak az egyik kategória esetében ad ki magas megbízhatósági pontszámot, míg a többi kategória esetében alacsony. Ha alacsony küszöbértéket állítunk be a kimenet megbízhatósági pontszámaira, akkor egynél több címkét kaphatunk kimenetként. Ez a megközelítés azonban nem ideális, mivel az összes megbízhatósági pontszámnak egynek kell lennie (mint bármely jogi valószínűségi eloszlásban), ami megakadályozza a magas megbízhatósági értékeket a több kategóriával rendelkező szókincs esetében.

Ideális esetben a modellünk egy többcímkés osztályozó lenne - egy olyan modell, amely képenként több címkével van betanítva, és amely képes magas megbízhatósági pontszámokat kiadni több kategóriára.

Érdemes megemlíteni azt is, hogy adatkészletünket emberi felügyelet nélkül állítottuk össze (a kapott képeket nem tekintettük át, illetve nem ellenőriztük, hogy azok valóban összhangban vannak-e a kategóriákkal). Ez azt jelenti, hogy az adatkészlet minősége a kulturális örökség tárgyát képező tárgyakhoz kapcsolódó metaadatoktól és a metaadatokon alapuló korábbi automatikus dúsításoktól függ. A gyakorlatban a képzési adatkészletből származó képeket nem igazították a megfelelő kategóriákhoz.

Következő lépések

Jelenleg összeállítunk egy képzési adatkészletet a többcímkés osztályozáshoz, és megosztjuk munkánkat és megközelítésünket egy jövőbeli Pro hírbejegyzésben - maradj velünk! Időközben felfedezheti a kísérleti projekt Github adattárát és ezt a Colab notebookot, ahol saját lekérdezéseket végezhet az Europeana Search API-n, és alkalmazhatja az egységes címke osztályozási modelljét.

Ha bármilyen kérdése vagy ötlete van, forduljon hozzánk bizalommal az [email protected] e-mail címen!

Képosztályozási modellünk képzése

Megosztás

Az egycímkés osztályozás mintája

Tanulásaink

Következő lépések

Fedezze fel a kapcsolódó tartalmakat