Meddelelse om EuropeanaTech Challenge for Europeana Datasæt om kunstig intelligens og maskinlæring

Offentliggjort 8. januar 2021 ved

Gregory Markus (Netherlands Institute for Sound & Vision)

Om opkaldet

Metoder fra området for kunstig intelligens og maskinlæring (AI/ML) har bidraget til at flytte teknologiske grænser på forskellige områder, herunder i kulturarvssektoren (se eksempler i den foreløbige rapport fra EuropeanaTech AI i forbindelse med GLAM-taskforcen eller AI4LAM-initiativet).

Der føres tilsyn med mange AI/ML-metoder af interesse for applikationer i GLAM'er. De arbejder f.eks. ved at træne en prædiktor (som et neuralt netværk) ved hjælp af jordsandhed (ideelle og forventede output) eller mærkede data, hvorfra metoden er i stand til at lære og udlede en model. For at modellen kan generalisere godt og udføre nøjagtige forudsigelser for en bred vifte af input, skal dens træningsdata være af tilstrækkelig volumen og kvalitet og være repræsentative for det område, hvorfra den udtages. Ellers er der risiko for overtilpasning (modellen vil kun give gode forudsigelser for input, der ligner træningsdataene meget) eller indførelse af bias, hvilket ikke blot vil reducere modellens generelle anvendelighed og ydeevne, men også kan medføre etisk problematiske eller på anden måde utilsigtede bivirkninger.

GLAM-sektoren er godt rustet til udbredelsen af AI/ML i den forstand, at kuraterede og forskelligartede data af tilstrækkelig mængde, kvalitet og mangfoldighed i form af digitale samlinger fra GLAM'er (f.eks. dem, der er aggregeret og leveret af Europeana) nu er bredt tilgængelige under åbne licenser. Det, der i øjeblikket mangler, er den bredere tilgængelighed af datasæt fra GLAM-sektoren, der er egnede til direkte anvendelse i forbindelse med AI/ML-forskning og -udvikling. Tilgængeligheden af sådanne åbne datasæt kan ikke blot bidrage til at fremme et større engagement i digitale kulturarvsdata inden for kunstig intelligens/hvidvask, men også støtte overførslen af de seneste fremskridt inden for kunstig intelligens/hvidvask til området for digital kuratering og analyse af kulturarvsindhold. På den anden side går yderligere fremskridt inden for kunstig intelligens/hvidvask ofte hånd i hånd med frigivelsen af nye datasæt af høj kvalitet.

EuropeanaTech opfordrer derfor til, at der udarbejdes forslag til samling af egnede AI/ML-datasæt på grundlag af de omfattende samlinger på Europeanas websted. Vi søger forslag til oprettelse af store, veldokumenterede datasæt, der er udformet med henblik på direkte anvendelse til AI/ML-formål (f.eks. uddannelse af en model), og som kan gøres offentligt tilgængelige på relevante onlineplatforme under åbne licenser.

Vi tildeler de to vinderforslag et økonomisk stipendium på 2.500 euro til støtte for produktion, dokumentation og offentliggørelse af datasættene. Prisvinderne vil blive opfordret til at fremlægge deres bidrag ved et fremtidigt Europeana-arrangement (online) og fremlægge en tekst til offentliggørelse vedrørende deres resultater.

Sådan ansøger du

For at ansøge bedes du læse nedenstående retningslinjer for indsendelse og indsende et forslag senest den 15. februar 2021 kl. 23:59 CET. Forslagene skal beskrive med mindre end 1.500 ord:

Det tilsigtede indhold af datasættet (med hensyn til mængde, typer af aktiver, anmærkninger osv.)
Den procedure, du havde til hensigt at følge for at producere datasættet
Hvordan det er relevant for AI/ML.

Forslagene bør også indeholde et forslag til en mulig anvendelse, der understøttes af en forududdannet model med en demonstration eller evaluering af dens resultater. I tilfælde af accept skal det være muligt at udarbejde og frigive datasættet og al nødvendig dokumentation og tekniske ressourcer inden den 30. juni 2021.

Europæiske kulturarvssamlinger er ofte genstand for forudindtagethed og medfører etiske spørgsmål. Selv om dette kan have en negativ indvirkning på AI- og maskinlæringsløsninger, kan AI og maskinlæring også anvendes til at afdække disse problemer. Disse problemer kan muligvis ikke løses inden for rammerne af denne indkaldelse, men vi råder dig til at dokumentere og drøfte dem.

Indsend dit forslag

Datasættene SKAL:

hentes fra data, der indgår i de forskellige samlinger, der leveres via Europeana
Medtag kun metadata, der enten er oprettet af dig eller kommer fra Europeana. De resulterende metadata skal være licenseret under Creative Commons Zero.
udarbejdes i et maskinlæsbart format, herunder dokumentation og herkomst
Har ikke været publiceret før. Hvis det tidligere er offentliggjort, skal det beskrives, hvordan det nye datasæt skal forbedres og anvendes.
Medtag en beskrivelse af et eller flere tilsigtede anvendelsestilfælde af datasættet.

Datasættene SKAL:

Medtag kun medieaktiver med en licens, der er kompatibel med indholdsniveau 3 i Europeana Publishing Framework.
præcisere forholdet til og bidraget til bedste praksis inden for kunstig intelligens og hvidvask af penge og den nyeste teknologi inden for digital kulturarv
omfatte en forhåndsuddannet model, der følger af anvendelsen (ved hjælp af en baseline-ML/AI-metode for (et af) de tilsigtede anvendelsestilfælde), og en demonstration af anvendelsen af denne model eller en evaluering af dens resultater
Dokumentere eller diskutere potentielle etiske spørgsmål og bias.

Datasættene KAN:

medtage yderligere kuratoriske berigninger og forbedringer såsom dataanmærkning, mærkning eller krydshenvisninger med andre (digitale) ressourcer, forudsat at disse er afsluttet inden frigivelsen af datasættet, og at der anvendes passende kvalitetskontrolforanstaltninger
En del af en publikation i et peer-reviewed tidsskrift eller konference.

Grundlæggende dokumentation for tekniske løsninger skal leveres, og al software, der produceres, skal frigives under en open source-licens.

Vigtige datoer

Indkaldelsen åbner: 8. januar 2021
Frist for indsendelse af forslag: 15. februar 2021, 23:59 CET
Meddelelse om accept: 1. marts 2021
Offentliggørelse af datasæt: 30. juni 2021

Tildelingskriterier

Indlæggene vil blive gennemgået af EuropeanaTech AI i GLAM-taskforcen og EuropeanaTech-fællesskabets styringsgruppe på grundlag af:

Brugsscenariets relevans for GLAM-fællesskabet: 25%
Datasættets relevans for AI/ML i forhold til anvendelsesscenariet: 25%
Klar definition af use case/demo i forbindelse med Europeana: 30%
Klarhed i beskrivelsen af datasættet: 20%

Støtteberettigelse

Formelt vil midlerne ikke blive tildelt enkeltpersoner, men institutioner, der kan være kulturarvs- eller forskningsinstitutioner, herunder universiteter. En repræsentant for hver modtagerinstitution vil blive bedt om at underskrive en underentreprisekontrakt med Europeana Foundation.
Ansøgere skal være baseret i et EU-land.
Ansøgere skal være medlem af EuropeanaTech-fællesskabet og Europeana Network Association. Hvis du ikke allerede er medlem, kan du finde ud af, hvordan du tilmelder dig.
Tildelingen er bruttobeløbet inkl. moms.
Europeana DSI-4-projektpartnere er ikke støtteberettigede. Den fuldstændige liste findes her.

Anbefalet læsning

Denne side blev redigeret den 19. januar 2021 for at afspejle forlængelsen af fristen fra den 31. januar 2021 til den 15. februar 2021. Den blev redigeret den 16. april 2021 for at afspejle den forlængede frist for vinderne til at levere deres datasæt senest i juni 2021.