Tillkännagivande av EuropeanaTech Challenge för Europeanas dataset för artificiell intelligens och maskininlärning

Publicerad 8 januari 2021 av

Gregory Markus (Netherlands Institute for Sound & Vision)

Om samtalet

Metoder från området artificiell intelligens och maskininlärning (AI/ML) har bidragit till att tänja på de tekniska gränserna på olika områden, bland annat inom kulturarvssektorn (se exempel i interimsrapporten från EuropeanaTech AI i förhållande till GLAM-arbetsgruppen eller AI4LAM-initiativet).

Många AI/ML-metoder av intresse för tillämpningar i GLAM övervakas. De arbetar till exempel genom att träna en prediktor (som ett neuralt nätverk) med hjälp av marksanning (ideala och förväntade utgångar) eller märkta data, från vilka metoden kan lära sig och sluta sig till en modell. För att modellen ska kunna generalisera väl och göra korrekta förutsägelser för ett brett spektrum av indata måste dess träningsdata vara av tillräcklig volym, kvalitet och vara representativa för den domän från vilken den provtas. Annars finns det en risk för övermontering (modellen kommer bara att göra bra förutsägelser för indata som är mycket lika träningsdata) eller införandet av biaser, vilket inte bara kommer att minska modellens allmänna tillämplighet och prestanda, utan kan också medföra etiskt problematiska eller på annat sätt oavsiktliga biverkningar.

GLAM-sektorn är väl positionerad för införandet av AI/ML i den meningen att kuraterade och diversifierade data av tillräcklig volym, kvalitet och mångfald i form av digitala samlingar från GLAM (såsom de som aggregeras och tillhandahålls av Europeana) nu är allmänt tillgängliga under öppna licenser. Vad som för närvarande saknas är den bredare tillgången till dataset från GLAM-sektorn som är lämpliga för direkt användning i samband med forskning och utveckling inom AI/ML. Tillgången till sådana öppna dataset skulle inte bara kunna bidra till att främja mer engagemang med digitala kulturarvsdata inom AI/ML, utan också stödja överföringen av de senaste framstegen inom AI/ML till området digital kuratering och analys av kulturarvsinnehåll. Å andra sidan går ytterligare framsteg inom AI/ML ofta hand i hand med lanseringen av nya högkvalitativa dataset.

EuropeanaTech inbjuder därför till förslag om montering av lämpliga AI/ML-dataset, som bygger på de omfattande samlingarna på Europeanas webbplats. Vi söker förslag för att skapa stora, väldokumenterade dataset som är utformade för direkt användning för AI/ML-ändamål (t.ex. träning av en modell) och som kan göras tillgängliga för allmänheten på relevanta onlineplattformar under öppna licenser.

Vi kommer att tilldela de två vinnande förslagen ett ekonomiskt stipendium på 2 500 euro för att stödja produktion, dokumentation och publicering av dataseten. Vinnarna kommer att bjudas in att presentera sina bidrag vid ett framtida Europeana-evenemang (online) och tillhandahålla en text för offentliggörande som rör deras resultat.

Så ansöker du

För att ansöka, läs inlämningsriktlinjerna nedan och lämna in ett förslag senast den 15 februari 2021, kl. 23.59 CET. Förslagen ska beskrivas med mindre än 1 500 ord:

Det avsedda innehållet i datauppsättningen (i fråga om volym, typer av tillgångar, notering osv.)
Den procedur som du avsåg att följa för att ta fram datauppsättningen
Hur det är relevant för AI/ML.

Förslagen bör också innehålla ett förslag till ett möjligt användningsfall, med stöd av en förtränad modell med en demonstration eller utvärdering av dess resultat. Vid godkännande måste det vara möjligt att ta fram och offentliggöra datasetet och all nödvändig dokumentation och alla nödvändiga tekniska resurser före den 30 juni 2021.

De europeiska kulturarvssamlingarna är ofta partiska och medför etiska frågor. Även om detta kan påverka AI och maskininlärningslösningar negativt kan AI och maskininlärning också användas för att upptäcka dessa problem. Dessa frågor kanske inte kan lösas inom ramen för denna ansökningsomgång, men vi råder dig att dokumentera och diskutera dem.

Skicka in ditt förslag

Datamängderna MÅSTE

hämtas från uppgifter som ingår i de olika samlingar som tillhandahålls genom Europeana,
Ta bara med metadata som antingen skapas av dig eller kommer från Europeana. De resulterande metadata måste vara licensierade under Creative Commons Zero.
sammanställas i ett maskinläsbart format, inklusive dokumentation och härkomst,
Har inte publicerats tidigare. Om det tidigare har offentliggjorts måste det anges i detalj hur det nya datasetet ska förbättras och användas.
Inkludera en beskrivning av ett eller flera avsedda användningsfall för datauppsättningen.

Datauppsättningarna bör

Inkludera endast medietillgångar med en licens som är kompatibel med innehållsnivå 3 i Europeana Publishing Framework.
Förtydliga förhållandet till och bidraget till bästa AI- och ML-praxis och den senaste tekniken inom det digitala kulturarvet.
Inkludera en förtränad modell som är resultatet av tillämpning (med användning av en grundläggande ML/AI-metod för (ett av) de avsedda användningsfallen) och en demo av användningen av denna modell eller utvärdering av dess resultat.
Dokumentera eller diskutera potentiella etiska frågor och fördomar.

Datamängderna kan

Inkludera ytterligare kuratoriska berikningar och förbättringar såsom dataannotering, märkning eller korshänvisningar med andra (digitala) resurser, under förutsättning att dessa slutförs innan datauppsättningen släpps och att lämpliga åtgärder för kvalitetskontroll tillämpas.
Utgör en del av en publikation i en peer-reviewed tidskrift eller konferens.

Grundläggande dokumentation för tekniska lösningar bör tillhandahållas och all programvara som produceras måste släppas under en öppen källkodslicens.

Viktiga datum

Ansökningsomgången inleds: 8 januari 2021
Sista inlämningsdag: 15 februari 2021 kl. 23.59 (centraleuropeisk tid)
Anmälan av godkännanden: 1 mars 2021
Offentliggörande av dataset: 30 juni 2021

Tilldelningskriterier

Bidragen kommer att granskas av EuropeanaTech AI in GLAMs Task Force och EuropeanaTech Community Steering Group på grundval av följande:

Användningsfallets relevans för GLAM-gemenskapen: 25%
Datasetets relevans för AI/ML i förhållande till användningsfallet: 25%
Tydlig definition av användningsfall/demo i förhållande till Europeana: 30%
Tydlighet i beskrivningen av datasetet produceras: 20%

Stödberättigande

Formellt sett kommer medlen inte att tilldelas enskilda personer utan institutioner, som kan vara kulturarvsinstitutioner eller forskningsinstitutioner, som består av universitet. En företrädare för varje institution som tilldelas utmärkelsen kommer att uppmanas att underteckna ett underleverantörsavtal med Europeana Foundation.
Sökande måste vara baserade i ett EU-land.
Sökande måste vara medlem i EuropeanaTech community och Europeana Network Association. Om du inte redan är medlem kan du ta reda på hur du går med.
Beviljande är bruttobeloppet därför inkluderar moms.
Europeana DSI-4-projektpartner är inte berättigade till finansiering. Den fullständiga förteckningen finns här.

Rekommenderad läsning

Den här sidan redigerades den 19 januari 2021 för att återspegla förlängningen av tidsfristen från den 31 januari 2021 till den 15 februari 2021. Den redigerades den 16 april 2021 för att återspegla den förlängda tidsfristen för vinnarna att lämna in sina dataset senast i juni 2021.