Aankondiging van de EuropeanaTech Challenge voor datasets van Europeana op het gebied van kunstmatige intelligentie en machinaal leren

Gepubliceerd 8 januari 2021 door

Gregory Markus (Netherlands Institute for Sound & Vision)

Over de oproep

Methoden op het gebied van kunstmatige intelligentie en machinaal leren (AI/ML) hebben geholpen om technologische grenzen op verschillende gebieden te verleggen, onder meer in de sector cultureel erfgoed (zie voorbeelden in het tussentijds verslag van de EuropeanaTech AI met betrekking tot GLAMs Task Force of het AI4LAM-initiatief).

Er wordt toezicht gehouden op veel AI/ML-methoden die van belang zijn voor toepassingen in GLAM’s; Ze werken bijvoorbeeld door een voorspeller (zoals een neuraal netwerk) te trainen met behulp van grondwaarheid (ideale en verwachte outputs) of gelabelde gegevens, waaruit de methode een model kan leren en afleiden. Om het model goed te generaliseren en nauwkeurige voorspellingen te doen voor een breed scala aan inputs, moeten de trainingsgegevens voldoende volume en kwaliteit hebben en representatief zijn voor het domein waaruit het wordt bemonsterd. Anders bestaat het risico van overfitting (het model zal alleen goede voorspellingen doen voor inputs die sterk lijken op de opleidingsgegevens) of de invoering van vertekeningen, wat niet alleen de algemene toepasbaarheid en prestaties van het model zal verminderen, maar ook ethisch problematische of anderszins onbedoelde bijwerkingen met zich mee kan brengen.

De GLAM-sector is goed gepositioneerd voor het gebruik van AI/ML in die zin dat gecureerde en diverse gegevens van voldoende volume, kwaliteit en diversiteit in de vorm van digitale collecties van GLAM's (zoals die geaggregeerd en verstrekt door Europeana), nu op grote schaal beschikbaar zijn onder open licenties. Wat momenteel ontbreekt, is de ruimere beschikbaarheid van datasets uit de GLAM-sector die geschikt zijn voor direct gebruik in het kader van onderzoek en ontwikkeling op het gebied van AI/ML. De beschikbaarheid van dergelijke open datasets zou niet alleen kunnen bijdragen tot meer betrokkenheid bij gegevens over digitaal cultureel erfgoed in AI/ML, maar ook de overdracht van recente vooruitgang op het gebied van AI/ML naar het gebied van digitale curatie en analyse van inhoud van cultureel erfgoed kunnen ondersteunen. Aan de andere kant gaan verdere ontwikkelingen in AI/ML vaak hand in hand met de release van nieuwe hoogwaardige datasets.

EuropeanaTech nodigt daarom voorstellen uit voor de assemblage van geschikte AI/ML-datasets, op basis van de uitgebreide collecties op de Europeana-website. We zijn op zoek naar voorstellen voor het creëren van grote, goed gedocumenteerde datasets die zijn ontworpen voor directe toepassing voor AI/ML-doeleinden (zoals het trainen van een model) en die onder open licenties openbaar kunnen worden gemaakt op relevante onlineplatforms.

We zullen de twee winnende voorstellen een financiële toelage van € 2.500 toekennen ter ondersteuning van de productie, documentatie en publicatie van de datasets. Winnaars van de prijs zullen worden uitgenodigd om hun bijdragen te presenteren op een toekomstig (online) evenement van Europeana en een tekst te verstrekken voor publicatie met betrekking tot hun output.

Hoe toe te passen

Lees de onderstaande richtsnoeren voor het indienen van een aanvraag en dien uiterlijk op 15 februari 2021, 23.59 uur Midden-Europese tijd (MET) een voorstel in. De voorstellen moeten in minder dan 1500 woorden worden beschreven:

De beoogde inhoud van de dataset (in termen van volume, soorten activa, annotatie, enz.)
De procedure die u van plan was te volgen voor het produceren van de dataset
Hoe het relevant is voor AI/ML.

De voorstellen moeten ook een suggestie bevatten voor een mogelijke use case, ondersteund door een vooraf opgeleid model met een demonstratie of evaluatie van de resultaten ervan. In geval van aanvaarding moet het haalbaar zijn de dataset en alle nodige documentatie en technische middelen vóór 30 juni 2021 op te stellen en vrij te geven.

Europese collecties van cultureel erfgoed zijn vaak onderhevig aan vooroordelen en brengen ethische kwesties met zich mee. Hoewel dit een negatieve invloed kan hebben op AI- en machine learning-oplossingen, kunnen AI en machine learning ook worden gebruikt om deze problemen aan het licht te brengen. Deze kwesties kunnen in het kader van deze oproep misschien niet worden opgelost, maar we raden u aan ze te documenteren en te bespreken.

Dien uw voorstel in

De datasets MOETEN:

worden ontleend aan gegevens die zijn opgenomen in de verschillende collecties die via Europeana worden verstrekt;
Neem alleen metadata op die door u zijn aangemaakt of afkomstig zijn van Europeana. De resulterende metagegevens moeten in licentie worden gegeven onder Creative Commons Zero;
wordt samengesteld in een machinaal leesbaar formaat, met inbegrip van documentatie en herkomst;
Niet eerder gepubliceerd. Indien eerder gepubliceerd, moeten stappen worden beschreven om de nieuwe dataset te verbeteren en te gebruiken;
Geef een beschrijving van een of meer beoogde gebruiksgevallen van de dataset.

De datasets MOETEN:

alleen mediaactiva omvatten met een licentie die compatibel is met content van niveau 3 van het Europeana Publishing Framework;
de relatie met en de bijdrage aan beste praktijken op het gebied van AI en ML en state-of-the-art binnen digitaal cultureel erfgoed te verduidelijken;
een voorgetraind model op te nemen dat het resultaat is van de toepassing (met behulp van een baseline ML/AI-methode voor (een van) de beoogde gebruiksgevallen) en een demo van het gebruik van dit model of de evaluatie van de resultaten ervan;
Documenteer of bespreek potentiële ethische kwesties en vooroordelen.

De datasets kunnen:

aanvullende curatoriële verrijkingen en verbeteringen op te nemen, zoals gegevensannotatie, etikettering of kruisverwijzing met andere (digitale) bronnen, op voorwaarde dat deze zijn voltooid voordat de gegevensset wordt vrijgegeven en dat passende kwaliteitscontrolemaatregelen worden toegepast;
Maak deel uit van een publicatie in een peer-reviewed tijdschrift of conferentie.

Basisdocumentatie voor technische oplossingen moet worden verstrekt en alle geproduceerde software moet worden vrijgegeven onder een open source-licentie.

Belangrijkste data

De oproep wordt geopend: 8 januari 2021
Uiterste datum voor indiening: 15 februari 2021, 23.59 uur Midden-Europese tijd (MET)
Kennisgeving van aanvaardingen: 1 maart 2021
Publicatie van de dataset: 30 juni 2021

Gunningscriteria

Inzendingen worden beoordeeld door de EuropeanaTech AI in GLAMs Task Force en de EuropeanaTech community Steering Group op basis van:

Relevantie van de use case voor de GLAM-gemeenschap: 25%
Relevantie van de dataset voor AI/ML met betrekking tot de use case: 25%
Duidelijke definitie van de use case/demo met betrekking tot Europeana: 30%
Duidelijkheid in de beschrijving van de dataset: 20%

Subsidiabiliteit

Formeel zullen de middelen niet worden toegewezen aan individuele personen, maar aan instellingen, die cultureel erfgoed kunnen zijn of onderzoeksinstellingen, waaronder universiteiten. Een vertegenwoordiger van elke begunstigde instelling wordt verzocht een onderaannemingscontract met de Europeana Foundation te ondertekenen.
Aanvragers moeten gevestigd zijn in een EU-lidstaat.
Aanvragers moeten lid zijn van de EuropeanaTech-gemeenschap en de Europeana Network Association. Als u nog geen lid bent, kunt u lezen hoe u lid kunt worden.
Toekenning is het brutobedrag dus inclusief BTW.
Europeana DSI-4-projectpartners komen niet in aanmerking voor financiering. De volledige lijst is hier beschikbaar.

Aanbevolen lectuur

Deze pagina is bewerkt op 19/01/2021 om rekening te houden met de verlenging van de termijn van 31 januari 2021 tot en met 15 februari 2021. Het werd op 16 april 2021 aangepast om rekening te houden met de verlengde termijn voor winnaars om hun datasets uiterlijk in juni 2021 te leveren.