Az Europeana mesterséges intelligenciával és gépi tanulással kapcsolatos adatkészleteivel kapcsolatos EuropeanaTech kihívás bejelentése

Közzétéve 2021. január 8. Szerző:

Gregory Markus (Netherlands Institute for Sound & Vision)

A hívásról

A mesterséges intelligencia és a gépi tanulás (MI/ML) területén alkalmazott módszerek hozzájárultak a technológiai határok feszegetéséhez különböző területeken, többek között a kulturális örökség ágazatában (lásd az EuropeanaTech AI GLAM-munkacsoporttal kapcsolatos időközi jelentésében vagy az AI4LAM kezdeményezésben szereplő példákat).

A GLAM-ekben található alkalmazások szempontjából fontos számos mesterségesintelligencia-/ML-módszert felügyelnek; például úgy dolgoznak, hogy egy prediktort (például egy neurális hálózatot) képeznek a földi igazság (ideális és várható kimenetek) vagy címkézett adatok felhasználásával, amelyekből a módszer képes megtanulni és levezetni egy modellt. Annak érdekében, hogy a modell jól általánosítható legyen, és pontos előrejelzéseket adjon a bemenetek széles körére vonatkozóan, a betanítási adatoknak megfelelő mennyiségűnek és minőségűnek kell lenniük, és reprezentatívnak kell lenniük arra a területre nézve, ahonnan a mintavétel történik. Ellenkező esetben fennáll a túlillesztés kockázata (a modell csak jó előrejelzéseket ad a képzési adatokhoz nagyon hasonló bemenetekre vonatkozóan) vagy az elfogultság bevezetése, ami nemcsak a modell általános alkalmazhatóságát és teljesítményét csökkenti, hanem etikailag problémás vagy egyébként nem szándékolt mellékhatásokkal is járhat.

A GLAM-ágazat jó helyzetben van a mesterséges intelligencia/ML elterjedéséhez abban az értelemben, hogy a GLAM-okból származó digitális gyűjtemények formájában (mint például az Europeana által összesített és szolgáltatott adatok) mára széles körben elérhetők nyílt licencek keretében. Ami jelenleg hiányzik, az a GLAM-ágazatból származó olyan adatkészletek szélesebb körű rendelkezésre állása, amelyek alkalmasak a mesterséges intelligenciával/ML-rel kapcsolatos kutatással és fejlesztéssel összefüggésben történő közvetlen felhasználásra. Az ilyen nyílt adatkészletek rendelkezésre állása nemcsak elősegítheti a digitális kulturális örökségre vonatkozó adatokkal való nagyobb mértékű együttműködést a mesterséges intelligenciában/ML-ben, hanem támogathatja a mesterséges intelligencia/ML terén a közelmúltban elért eredményeknek a digitális gondozás és a kulturális örökségi tartalmak elemzése területére való átvitelét is. Másrészt a mesterséges intelligencia/ML terén elért további előrelépések gyakran együtt járnak új, jó minőségű adatkészletek kiadásával.

Az EuropeanaTech ezért az Europeana honlapján található kiterjedt gyűjtemények alapján javaslatokat kér a megfelelő mesterségesintelligencia-/ML-adatkészletek összeállítására. Olyan nagy, jól dokumentált adatkészletek létrehozására irányuló javaslatokat keresünk, amelyeket a mesterséges intelligencia/ML céljaira történő közvetlen felhasználásra alakítottak ki (például egy modell betanítása), és amelyek nyílt licencek alapján nyilvánosan hozzáférhetővé tehetők az érintett online platformokon.

A két nyertes pályázatot 2500 eurós pénzügyi ösztöndíjjal támogatjuk az adatkészletek előállítását, dokumentálását és közzétételét. A díjnyertesek felkérést kapnak, hogy egy jövőbeli Europeana (online) rendezvényen ismertessék észrevételeiket, és adjanak közre egy, az eredményeikkel kapcsolatos szöveget.

Hogyan kell jelentkezni?

A jelentkezéshez kérjük, olvassa el a benyújtásra vonatkozó alábbi iránymutatásokat, és 2021. február 15-én (közép-európai idő szerint) 23:59-ig nyújtson be javaslatot. A pályázatoknak kevesebb mint 1500 szóban kell leírniuk a következőket:

Az adatkészlet tervezett tartalma (volumen, eszköztípusok, magyarázó jegyzetek stb. tekintetében)
Az adatkészlet előállítása során követni kívánt eljárás
Hogyan releváns a mesterséges intelligencia/ML szempontjából?

A javaslatoknak tartalmazniuk kell egy lehetséges felhasználási esetre vonatkozó javaslatot is, amelyet az eredmények bemutatását vagy értékelését tartalmazó, előre kiképzett modell támogat. Elfogadás esetén megvalósíthatónak kell lennie annak, hogy az adatkészletet, valamint az összes szükséges dokumentációt és technikai erőforrást 2021. június 30. előtt előállítsák és közzétegyék.

Az európai kulturális örökség gyűjteményei általában elfogultságnak vannak kitéve, és etikai kérdéseket vetnek fel. Bár ez negatív hatással lehet a mesterséges intelligenciára és a gépi tanulási megoldásokra, a mesterséges intelligencia és a gépi tanulás is felhasználható e kérdések feltárására. Előfordulhat, hogy e felhívás keretében nem sikerül megoldani ezeket a problémákat, de javasoljuk, hogy dokumentálja és vitassa meg azokat.

Küldje el javaslatát

Az adatkészleteknek KÖTELEZŐ:

az Europeanán keresztül biztosított különböző gyűjteményekben szereplő adatokból kell származnia;
Csak olyan metaadatokat tartalmazhat, amelyeket Ön hozott létre, vagy amelyek az Europeanából származnak. Az így kapott metaadatokat a Creative Commons Zero szerint kell engedélyezni;
géppel olvasható formátumban kell összeállítani, beleértve a dokumentációt és a származást;
Korábban még nem publikálták. Korábbi közzététel esetén részletezni kell az új adatkészlet javításának és felhasználásának módját;
Tartalmazza az adatkészlet egy vagy több tervezett felhasználási esetének leírását.

Az adatkészleteknek:

Csak az Europeana közzétételi keretrendszer 3. tartalmi szintjével kompatibilis licenccel rendelkező médiaeszközöket tartalmazza;
tisztázza a digitális kulturális örökségen belül a mesterséges intelligenciával és a pénzmosással kapcsolatos bevált gyakorlatokkal és a legkorszerűbb gyakorlatokkal való kapcsolatot és az azokhoz való hozzájárulást;
Tartalmazzon egy előképzett modellt, amely a tervezett felhasználási esetek (egyikének) alkalmazásából (az ML/AI alapmódszer alkalmazásával) származik, valamint egy bemutatót e modell használatáról vagy eredményeinek értékeléséről;
Dokumentálja vagy megvitassa a lehetséges etikai kérdéseket és elfogultságokat.

Az adatkészletek:

Tartalmazzon további kurátori dúsításokat és fejlesztéseket, például adatfeljegyzést, címkézést vagy más (digitális) erőforrásokkal való kereszthivatkozást, azzal a feltétellel, hogy ezeket az adatkészlet közzététele előtt befejezik, és megfelelő minőség-ellenőrzési intézkedéseket alkalmaznak;
Lektorált folyóiratban vagy konferencián közzétett kiadvány részét képezi.

A műszaki megoldásokhoz alapvető dokumentációt kell biztosítani, és minden előállított szoftvert nyílt forráskódú licenc alatt kell kiadni.

Kulcsfontosságú időpontok

Megnyílik a felhívás: 2021. január 8.
Benyújtási határidő: 2021. február 15., 23:59 (közép-európai idő szerint)
Az elfogadásokról szóló értesítés: 2021. március 1.
Az adatkészlet közzététele: 2021. június 30.

Odaítélési szempontok

A beadványokat az EuropeanaTech MI a GLAM-munkacsoportban és az EuropeanaTech közösségi irányítócsoportban vizsgálja felül a következők alapján:

A használati eset relevanciája a GLAM közösség számára: 25%
Az adatkészlet relevanciája az MI/ML szempontjából a felhasználási eset szempontjából: 25%
Az Europeanával kapcsolatos használati eset/demo egyértelmű meghatározása: 30%
Az adatkészlet leírásának egyértelműsége: 20%

Jogosultság

Formálisan a forrásokat nem egyéneknek, hanem intézményeknek osztják ki, amelyek lehetnek kulturális örökséget ápoló intézmények vagy egyetemekből álló kutatóintézetek. Minden díjazott intézmény egy-egy képviselőjét felkérik, hogy írjon alá alvállalkozói szerződést az Europeana Alapítvánnyal.
A pályázóknak valamely uniós tagállamban kell székhellyel rendelkezniük.
A pályázóknak az EuropeanaTech közösség és az Europeana Network Association tagjának kell lenniük. Ha még nem vagy tag, itt megtudhatod, hogyan csatlakozhatsz.
Az odaítélés a bruttó összeg, ezért tartalmazza az ÁFÁ-t.
Az Europeana DSI-4 projektpartnerei nem jogosultak finanszírozásra. A teljes lista itt érhető el.

Ajánlott olvasmány

Ezt az oldalt 2021. január 19-én szerkesztettük, hogy tükrözze a határidő 2021. január 31-től 2021. február 15-ig történő meghosszabbítását. A dokumentumot 2021. április 16-án szerkesztették, hogy tükrözze azt a meghosszabbított határidőt, amelyen belül a nyerteseknek 2021 júniusáig be kell nyújtaniuk adatkészleteiket.