Anunțarea provocării EuropeanaTech pentru seturile de date Europeana privind inteligența artificială și învățarea automată

Publicat 8 ianuarie 2021 de

Gregory Markus (Netherlands Institute for Sound & Vision)

Despre apel

Metodele din domeniul inteligenței artificiale și al învățării automate (IA/ML) au contribuit la depășirea limitelor tehnologice în diferite domenii, inclusiv în sectorul patrimoniului cultural (a se vedea exemplele din raportul intermediar al EuropeanaTech AI în legătură cu Grupul operativ GLAM sau cu inițiativa AI4LAM).

Multe metode de IA/ML de interes pentru aplicațiile din GLAM sunt supravegheate; De exemplu, ei lucrează prin antrenarea unui predictor (cum ar fi o rețea neuronală) folosind adevărul de la sol (ieșiri ideale și așteptate) sau date etichetate, din care metoda este capabilă să învețe și să deducă un model. Pentru ca modelul să generalizeze bine și să efectueze predicții exacte pentru o gamă largă de date de intrare, datele sale de antrenament trebuie să aibă un volum și o calitate suficiente și să fie reprezentative pentru domeniul din care este eșantionat. În caz contrar, există riscul de supraajustare (modelul va face doar previziuni bune pentru datele de intrare care sunt foarte similare cu datele de antrenament) sau de introducere a prejudecăților, ceea ce nu numai că va reduce aplicabilitatea și performanța generală a modelului, ci poate implica, de asemenea, efecte secundare problematice din punct de vedere etic sau neintenționate în alt mod.

Sectorul GLAM este bine poziționat pentru adoptarea IA/ML, în sensul că datele structurate și diverse de volum, calitate și diversitate suficiente sub formă de colecții digitale din GLAM (cum ar fi cele agregate și furnizate de Europeana) sunt în prezent disponibile pe scară largă sub licențe deschise. Ceea ce lipsește în prezent este disponibilitatea mai largă a seturilor de date din sectorul GLAM care sunt adecvate pentru utilizare directă în contextul cercetării și dezvoltării în domeniul IA/ML. Disponibilitatea unor astfel de seturi de date deschise nu numai că ar putea contribui la promovarea unui angajament mai mare față de datele privind patrimoniul cultural digital în domeniul IA/ML, ci ar putea sprijini, de asemenea, transferul progreselor recente în domeniul IA/ML către domeniul curării digitale și al analizei conținutului patrimoniului cultural. Pe de altă parte, progresele suplimentare în domeniul IA/ML merg adesea mână în mână cu lansarea de noi seturi de date de înaltă calitate.

Prin urmare, EuropeanaTech invită la propuneri pentru asamblarea unor seturi de date adecvate privind IA/ML, pe baza colecțiilor extinse de pe site-ul web Europeana. Căutăm propuneri pentru crearea unor seturi de date mari, bine documentate, care să fie concepute pentru a fi preluate direct în scopuri de IA/ML (cum ar fi antrenarea unui model) și care să poată fi puse la dispoziția publicului pe platformele online relevante în baza unor licențe deschise.

Vom acorda celor două propuneri câștigătoare o bursă financiară de 2 500 EUR pentru a sprijini producția, documentarea și publicarea seturilor de date. Câștigătorii premiilor vor fi invitați să își prezinte contribuțiile în cadrul unui viitor eveniment (online) Europeana și să furnizeze un text pentru publicare referitor la realizările lor.

Modalitatea de depunere a candidaturii

Pentru a vă depune candidatura, vă rugăm să citiți orientările de mai jos și să depuneți o propunere până la 15 februarie 2021, ora 23:59 CET. Propunerile trebuie să descrie în mai puțin de 1 500 de cuvinte:

Conținutul preconizat al setului de date (în ceea ce privește volumul, tipurile de active, adnotările etc.)
Procedura pe care intenționați să o urmați pentru producerea setului de date
Cât de relevant este pentru IA/ML.

Propunerile ar trebui să includă, de asemenea, o sugestie privind un posibil caz de utilizare, susținută de un model pregătit în prealabil, cu o demonstrație sau o evaluare a rezultatelor acestuia. În cazul acceptării, trebuie să fie fezabil să se producă și să se publice setul de date și toate documentele și resursele tehnice necesare înainte de 30 iunie 2021.

Colecțiile de patrimoniu cultural european sunt în general părtinitoare și implică aspecte etice. Deși acest lucru poate avea un impact negativ asupra soluțiilor de IA și de învățare automată, IA și învățarea automată ar putea fi, de asemenea, utilizate pentru a descoperi aceste probleme. Este posibil ca aceste probleme să nu fie depășite în cadrul prezentei cereri de propuneri, dar vă sfătuim să le documentați și să le discutați.

Depuneți propunerea

Seturile de date TREBUIE:

să fie extrase din datele incluse în diferitele colecții furnizate prin intermediul Europeana;
Includeți numai metadatele care fie sunt create de dvs., fie provin de la Europeana. Metadatele rezultate trebuie să fie licențiate sub Creative Commons Zero;
să fie compilate într-un format care poate fi citit automat, inclusiv documentația și proveniența;
Nu au mai fost publicate până acum. În cazul în care au fost publicate anterior, etapele trebuie să fie detaliate cu privire la modul în care noul set de date urmează să fie îmbunătățit și utilizat;
Includeți o descriere a unuia sau mai multor cazuri de utilizare preconizată a setului de date.

Seturile de date TREBUIE:

Includeți numai activele media cu o licență compatibilă cu conținutul de nivel 3 al Europeana Publishing Framework;
clarificarea relației cu cele mai bune practici în materie de IA și ML și a stadiului actual al tehnologiei în cadrul patrimoniului cultural digital, precum și a contribuției la acestea;
să includă un model pregătit în prealabil care rezultă din aplicarea [utilizând o metodă ML/AI de referință pentru (unul dintre) cazurile de utilizare preconizată] și o demonstrație a utilizării acestui model sau a evaluării rezultatelor sale;
Documentați sau discutați potențiale probleme etice și prejudecăți.

Seturile de date POT:

să includă îmbogățiri și îmbunătățiri curatoriale suplimentare, cum ar fi adnotarea datelor, etichetarea sau trimiterile încrucișate cu alte resurse (digitale), cu condiția ca acestea să fie finalizate înainte de publicarea setului de date și să se aplice măsuri adecvate de control al calității;
Face parte dintr-o publicație într-o revistă sau conferință peer-reviewed.

Ar trebui furnizată documentația de bază pentru soluțiile tehnice și orice software produs trebuie să fie lansat sub o licență cu sursă deschisă.

Date-cheie

Se deschide cererea de propuneri: 8 ianuarie 2021
Termenul-limită pentru depunerea candidaturilor: 15 februarie 2021, 23:59 CET
Notificarea acceptărilor: 1 martie 2021
Publicarea setului de date: 30 iunie 2021

Criterii de atribuire

Observațiile vor fi examinate de Grupul operativ privind IA al EuropeanaTech în cadrul GLAM și de Grupul de coordonare al comunității EuropeanaTech, pe baza:

Relevanța cazului de utilizare pentru comunitatea GLAM: 25%
Relevanța setului de date pentru IA/ML în raport cu cazul de utilizare: 25%
Definirea clară a cazului de utilizare/demo în raport cu Europeana: 30%
Claritatea descrierii setului de date este produsă: 20%

Eligibilitate

În mod oficial, fondurile nu vor fi alocate persoanelor fizice, ci instituțiilor, care pot fi instituții de patrimoniu cultural sau de cercetare, inclusiv universități. Un reprezentant al fiecărei instituții premiate va fi invitat să semneze un contract de subcontractare cu Fundația Europeana.
Solicitanții trebuie să aibă sediul într-un stat membru al UE.
Solicitanții trebuie să fie membri ai comunității EuropeanaTech și ai Asociației Europeana Network. Dacă nu sunteți deja membru, puteți afla cum să vă alăturați.
Atribuirea este suma brută, prin urmare, include TVA.
Partenerii proiectului Europeana DSI-4 nu sunt eligibili pentru finanțare. Lista completă este disponibilă aici.

Lectură recomandată

Această pagină a fost editată la 19.1.2021 pentru a reflecta prelungirea termenului de la 31 ianuarie 2021 la 15 februarie 2021. Acesta a fost editat la 16.4.2021 pentru a reflecta termenul prelungit până în iunie 2021 până la care câștigătorii trebuie să își furnizeze seturile de date.