Ogłaszanie wyzwania EuropeanaTech dla zbiorów danych dotyczących sztucznej inteligencji i uczenia maszynowego Europeana

Opublikowano 8 stycznia 2021 przez

Gregory Markus (Netherlands Institute for Sound & Vision)

O zaproszeniu

Metody z dziedziny sztucznej inteligencji i uczenia maszynowego pomogły przesuwać granice technologiczne w różnych dziedzinach, w tym w sektorze dziedzictwa kulturowego (zob. przykłady w sprawozdaniu okresowym EuropeanaTech AI w odniesieniu do grupy zadaniowej GLAM lub inicjatywy AI4LAM).

Wiele metod AI/ML interesujących dla zastosowań w GLAM jest nadzorowanych; na przykład działają poprzez trenowanie predyktora (takiego jak sieć neuronowa) przy użyciu prawdy gruntowej (idealnych i oczekiwanych wyników) lub oznaczonych danych, z których metoda jest w stanie nauczyć się i wywnioskować model. Aby model dobrze uogólniał i przeprowadzał dokładne prognozy dla szerokiej gamy danych wejściowych, jego dane szkoleniowe muszą mieć wystarczającą objętość, jakość i być reprezentatywne dla dziedziny, z której pobiera się próbki. W przeciwnym razie istnieje ryzyko nadmiernego dopasowania (model będzie jedynie dobrymi prognozami dla danych wejściowych, które są bardzo podobne do danych treningowych) lub wprowadzenia uprzedzeń, co nie tylko zmniejszy ogólne zastosowanie i wydajność modelu, ale może również pociągać za sobą etycznie problematyczne lub w inny sposób niezamierzone skutki uboczne.

Sektor GLAM jest dobrze przygotowany do wykorzystania AI/ML w tym sensie, że uporządkowane i zróżnicowane dane o wystarczającej ilości, jakości i różnorodności w postaci zbiorów cyfrowych z GLAM (takich jak te zagregowane i dostarczane przez Europeanę) są obecnie powszechnie dostępne na otwartych licencjach. Obecnie brakuje szerszej dostępności zbiorów danych z sektora GLAM, które są odpowiednie do bezpośredniego wykorzystania w kontekście badań i rozwoju w dziedzinie AI/ML. Dostępność takich otwartych zbiorów danych mogłaby nie tylko przyczynić się do większego zaangażowania w cyfrowe dane dotyczące dziedzictwa kulturowego w dziedzinie AI/ML, ale także wesprzeć transfer najnowszych postępów w dziedzinie AI/ML do dziedziny cyfrowej kuracji i analizy treści dziedzictwa kulturowego. Z drugiej strony dalsze postępy w dziedzinie AI/ML często idą w parze z wydaniem nowych zbiorów danych wysokiej jakości.

W związku z tym EuropeanaTech zaprasza do składania wniosków dotyczących gromadzenia odpowiednich zbiorów danych dotyczących AI/ML, w oparciu o obszerne zbiory na stronie internetowej Europeany. Poszukujemy propozycji utworzenia dużych, dobrze udokumentowanych zbiorów danych, które są kształtowane do bezpośredniego wykorzystania do celów AI/ML (takich jak szkolenie modelu) i które mogą być udostępniane publicznie na odpowiednich platformach internetowych na podstawie otwartych licencji.

Przyznamy dwóm zwycięskim wnioskom stypendium finansowe w wysokości 2500 euro na wsparcie produkcji, dokumentacji i publikacji zbiorów danych. Laureaci zostaną poproszeni o zaprezentowanie swojego wkładu na jednym z przyszłych wydarzeń Europeany (online) oraz o dostarczenie tekstu do publikacji związanego z ich wynikami.

Jak aplikować

Aby złożyć wniosek, zapoznaj się z poniższymi wytycznymi dotyczącymi składania wniosków i przedłóż wniosek do 15 lutego 2021 r., do godz. 23:59 czasu środkowoeuropejskiego. Propozycje powinny zawierać mniej niż 1500 słów:

Zamierzona zawartość zbioru danych (pod względem ilości, rodzajów aktywów, adnotacji itp.)
Procedura, którą zamierzałeś zastosować przy tworzeniu zbioru danych
Jak to jest istotne dla AI / ML.

Propozycje powinny również zawierać sugestię dotyczącą ewentualnego przypadku użycia, popartą wstępnie przeszkolonym modelem wraz z demonstracją lub oceną jego wyników. W przypadku przyjęcia musi być wykonalne sporządzenie i udostępnienie zbioru danych oraz wszelkiej niezbędnej dokumentacji i zasobów technicznych przed dniem 30 czerwca 2021 r.

Zbiory europejskiego dziedzictwa kulturowego są powszechnie obciążone uprzedzeniami i wiążą się z kwestiami etycznymi. Chociaż może to mieć negatywny wpływ na rozwiązania w zakresie sztucznej inteligencji i uczenia maszynowego, sztuczną inteligencję i uczenie maszynowe można również wykorzystać do ujawnienia tych problemów. Kwestie te mogą nie zostać przezwyciężone w ramach niniejszego zaproszenia, ale radzimy je udokumentować i omówić.

Zgłoś swoją propozycję

Zbiory danych MUSZĄ:

być czerpane z danych zawartych w różnych zbiorach dostarczonych za pośrednictwem Europeany;
Uwzględniaj tylko metadane, które są tworzone przez Ciebie lub pochodzą z Europeany. Uzyskane metadane muszą być licencjonowane na podstawie Creative Commons Zero;
być skompilowane w formacie nadającym się do odczytu maszynowego, obejmującym dokumentację i pochodzenie;
Wcześniej nie były publikowane. Jeżeli został on wcześniej opublikowany, należy szczegółowo określić, w jaki sposób nowy zbiór danych ma zostać ulepszony i wykorzystany;
Uwzględnić opis co najmniej jednego zamierzonego przypadku użycia zbioru danych.

Zbiory danych powinny:

obejmuje wyłącznie zasoby medialne z licencją zgodną z treścią poziomu 3 ram wydawniczych Europeana;
wyjaśnienie związku z najlepszymi praktykami w zakresie sztucznej inteligencji i prania pieniędzy oraz najnowocześniejszymi rozwiązaniami w ramach cyfrowego dziedzictwa kulturowego, a także wkładu w ich rozwój;
Uwzględniła wstępnie przeszkolony model wynikający ze stosowania (przy zastosowaniu podstawowej metody ML/AI w odniesieniu do (jednego z) zamierzonych przypadków użycia) oraz demonstrację stosowania tego modelu lub oceny jego wyników;
Dokumentowanie lub omawianie potencjalnych problemów etycznych i uprzedzeń.

Zbiory danych MOGĄ:

Uwzględniła dodatkowe wzbogacenia i ulepszenia kuratorskie, takie jak adnotacje o danych, etykietowanie lub łączenie z innymi zasobami (cyfrowymi), pod warunkiem że zostaną one zakończone przed udostępnieniem zbioru danych i że zastosowane zostaną odpowiednie środki kontroli jakości;
Stanowi część publikacji w recenzowanym czasopiśmie lub konferencji.

Należy dostarczyć podstawową dokumentację rozwiązań technicznych, a każde wyprodukowane oprogramowanie musi zostać wydane na licencji open source.

Najważniejsze daty

Otwarcie zaproszenia: 8 stycznia 2021 r.
Termin nadsyłania zgłoszeń: 15 lutego 2021 r. o godz. 23.59 czasu środkowoeuropejskiego
Powiadomienie o przyjęciu: 1 marca 2021 r.
Publikacja zbioru danych: 30 czerwca 2021 r.

Kryteria udzielenia zamówienia

Zgłoszenia zostaną poddane przeglądowi przez grupę zadaniową ds. sztucznej inteligencji EuropeanaTech w ramach GLAM oraz grupę sterującą społeczności EuropeanaTech w oparciu o:

Znaczenie przypadku użycia dla społeczności GLAM: 25%
Znaczenie zbioru danych dla AI/ML w odniesieniu do przypadku użycia: 25%
Jasna definicja przypadku użycia/demo w odniesieniu do Europeany: 30%
Jasność opisu zbioru danych: 20%

Kwalifikowalność

Formalnie fundusze nie będą przydzielane osobom fizycznym, ale instytucjom, które mogą być instytucjami dziedzictwa kulturowego lub instytucjami badawczymi, w tym uniwersytetom. Przedstawiciel każdej instytucji będącej laureatem zostanie poproszony o podpisanie umowy o podwykonawstwo z Fundacją Europeana.
Wnioskodawcy muszą mieć siedzibę w państwie członkowskim UE.
Kandydaci muszą być członkami społeczności EuropeanaTech i Europeana Network Association. Jeśli nie jesteś jeszcze członkiem, możesz dowiedzieć się, jak dołączyć.
Nagroda jest kwotą brutto, a zatem zawiera podatek VAT.
Partnerzy projektu Europeana DSI-4 nie kwalifikują się do finansowania. Pełna lista dostępna jest tutaj.

Zalecana lektura

Niniejsza strona została zredagowana 19 stycznia 2021 r., aby odzwierciedlić przedłużenie terminu z 31 stycznia 2021 r. do 15 lutego 2021 r. Został on zredagowany 16 kwietnia 2021 r., aby odzwierciedlić przedłużony termin dostarczenia zbiorów danych przez zwycięzców do czerwca 2021 r.