Annuncio della sfida EuropeanaTech per le serie di dati sull'intelligenza artificiale e l'apprendimento automatico di Europeana

Pubblicato 8 gennaio 2021 di

Gregory Markus (Netherlands Institute for Sound & Vision)

Informazioni sulla chiamata

I metodi nel campo dell'intelligenza artificiale e dell'apprendimento automatico (IA/ML) hanno contribuito a spingere i confini tecnologici in vari settori, anche nel settore del patrimonio culturale (cfr. esempi nella relazione intermedia dell'IA EuropeanaTech in relazione alla task force GLAM o all'iniziativa AI4LAM).

Molti metodi AI / ML di interesse per le applicazioni in GLAM sono supervisionati; ad esempio, lavorano addestrando un predittore (come una rete neurale) utilizzando la verità di base (output ideali e attesi) o dati etichettati, da cui il metodo è in grado di apprendere e dedurre un modello. Affinché il modello generalizzi bene ed esegua previsioni accurate per una vasta gamma di input, i suoi dati di addestramento devono essere di volume e qualità sufficienti ed essere rappresentativi del dominio da cui viene campionato. In caso contrario, vi è il rischio di un adattamento eccessivo (il modello farà solo buone previsioni per input molto simili ai dati di formazione) o l'introduzione di distorsioni, che non solo ridurranno l'applicabilità e le prestazioni generali del modello, ma possono anche comportare effetti collaterali eticamente problematici o altrimenti non intenzionali.

Il settore GLAM è ben posizionato per l'adozione dell'IA/ML, nel senso che dati curati e diversificati di volume, qualità e diversità sufficienti sotto forma di collezioni digitali di GLAM (come quelli aggregati e forniti da Europeana) sono ora ampiamente disponibili sotto licenze aperte. Ciò che attualmente manca è la più ampia disponibilità di set di dati del settore GLAM che siano appropriati per l'uso diretto nel contesto della ricerca e dello sviluppo in materia di IA/ML. La disponibilità di tali set di dati aperti potrebbe non solo contribuire a promuovere un maggiore coinvolgimento con i dati del patrimonio culturale digitale nell'IA/ML, ma anche sostenere il trasferimento dei recenti progressi nell'IA/ML al settore della cura digitale e dell'analisi dei contenuti del patrimonio culturale. D'altra parte, ulteriori progressi nell'IA/ML spesso vanno di pari passo con il rilascio di nuovi set di dati di alta qualità.

EuropeanaTech invita pertanto a presentare proposte per l'assemblaggio di set di dati adeguati in materia di IA/ML, attingendo alle ampie collezioni disponibili sul sito web di Europeana. Stiamo cercando proposte per la creazione di grandi insiemi di dati ben documentati che siano modellati per l'adozione diretta a fini di IA/ML (come l'addestramento di un modello) e che possano essere resi pubblici su piattaforme online pertinenti con licenze aperte.

Assegnaremo alle due proposte vincitrici uno stipendio di 2.500 euro per sostenere la produzione, la documentazione e la pubblicazione dei set di dati. I vincitori del premio saranno invitati a presentare i loro contributi in occasione di un futuro evento Europeana (online) e a fornire un testo per la pubblicazione relativo ai loro risultati.

Come candidarsi

Per candidarsi, si prega di leggere le linee guida di presentazione riportate di seguito e presentare una proposta entro il 15 febbraio 2021, alle 23:59 CET. Le proposte dovrebbero descrivere in meno di 1 500 parole:

Il contenuto previsto del set di dati (in termini di volume, tipi di attività, annotazione, ecc.)
La procedura che intendete seguire per la produzione del set di dati
Come è rilevante per AI / ML.

Le proposte dovrebbero includere anche un suggerimento per un possibile caso d'uso, sostenuto da un modello pre-formato con una dimostrazione o una valutazione dei suoi risultati. In caso di accettazione, deve essere possibile produrre e rilasciare l'insieme di dati e tutta la documentazione e le risorse tecniche necessarie prima del 30 giugno 2021.

Le collezioni del patrimonio culturale europeo sono comunemente soggette a pregiudizi e comportano questioni etiche. Sebbene ciò possa avere un impatto negativo sull'IA e sulle soluzioni di apprendimento automatico, anche l'IA e l'apprendimento automatico potrebbero essere utilizzati per scoprire questi problemi. Questi problemi potrebbero non essere superati nell'ambito del presente invito, ma ti consigliamo di documentarli e discuterli.

Invia la tua proposta

I set di dati DEVONO:

essere ricavati dai dati contenuti nelle varie raccolte fornite attraverso Europeana;
Includi solo i metadati creati da te o provenienti da Europeana. I metadati risultanti devono essere concessi in licenza con Creative Commons Zero;
essere compilato in un formato leggibile meccanicamente comprendente documentazione e provenienza;
Non sono stati pubblicati prima. Se precedentemente pubblicato, le fasi devono essere dettagliate per quanto riguarda il modo in cui il nuovo set di dati deve essere migliorato e utilizzato;
Includere una descrizione di uno o più casi d'uso previsti dell'insieme di dati.

I set di dati DOVREBBE:

includere solo risorse multimediali con una licenza compatibile con i contenuti di livello 3 di Europeana Publishing Framework;
chiarire la relazione con le migliori pratiche e lo stato dell'arte in materia di IA e riciclaggio nell'ambito del patrimonio culturale digitale e il loro contributo a tali pratiche;
includere un modello pre-formato risultante dall'applicazione (utilizzando un metodo ML/AI di riferimento per (uno dei) casi d'uso previsti) e una dimostrazione dell'utilizzo di tale modello o della valutazione dei suoi risultati;
Documentare o discutere potenziali questioni etiche e pregiudizi.

Le serie di dati MAGGIO:

includere ulteriori arricchimenti e miglioramenti curatoriali, quali l'annotazione dei dati, l'etichettatura o i riferimenti incrociati con altre risorse (digitali), a condizione che siano completati prima del rilascio dell'insieme di dati e che siano applicate adeguate misure di controllo della qualità;
Fai parte di una pubblicazione in una rivista o conferenza peer-reviewed.

La documentazione di base per le soluzioni tecniche dovrebbe essere fornita e qualsiasi software prodotto deve essere rilasciato sotto una licenza open source.

Date principali

Apertura dell'invito: 8 gennaio 2021
Termine ultimo per la presentazione delle candidature: 15 febbraio 2021, alle 23:59 CET
Notifica di accettazione: marzo 2021
Pubblicazione della serie di dati: 30 giugno 2021

Criteri di aggiudicazione

Le candidature saranno esaminate dall'IA di EuropeanaTech nell'ambito della task force GLAM e dal gruppo direttivo della comunità EuropeanaTech sulla base di:

Pertinenza del caso d'uso per la comunità GLAM: 25%
Pertinenza della serie di dati per l'IA/ML in relazione al caso d'uso: 25%
Definizione chiara del caso d'uso/demo in relazione a Europeana: 30%
Chiarezza nella descrizione dell'insieme di dati: 20%

Ammissibilità

Formalmente, i fondi non saranno assegnati a singoli individui ma a istituzioni, che possono essere istituti di patrimonio culturale o di ricerca, comprese le università. Un rappresentante di ciascuna istituzione vincitrice sarà invitato a firmare un subappalto con la Fondazione Europeana.
I candidati devono avere sede in uno Stato membro dell'UE.
I candidati devono essere membri della comunità EuropeanaTech e della Europeana Network Association. Se non sei già membro, puoi scoprire come iscriverti.
Il premio è l'importo lordo, quindi include l'IVA.
I partner del progetto Europeana DSI-4 non sono ammissibili al finanziamento. L'elenco completo è disponibile qui.

Lettura consigliata

Questa pagina è stata modificata il 19.1.2021 per riflettere la proroga del termine dal 31 gennaio 2021 al 15 febbraio 2021. È stato modificato il 16.4.2021 per rispecchiare il termine prorogato entro il quale i vincitori devono consegnare le loro serie di dati entro giugno 2021.