Annonce du défi EuropeanaTech pour les ensembles de données Europeana sur l’intelligence artificielle et l’apprentissage automatique

Publié 8 janvier 2021 par

Gregory Markus (Netherlands Institute for Sound & Vision)

À propos de l'appel

Les méthodes issues du domaine de l’intelligence artificielle et de l’apprentissage automatique (IA/ML) ont contribué à repousser les limites technologiques dans divers domaines, y compris dans le secteur du patrimoine culturel (voir des exemples dans le rapport intermédiaire d’EuropeanaTech AI en ce qui concerne le groupe de travail sur les GLAM ou l’initiative AI4LAM).

De nombreuses méthodes d’IA/ML présentant un intérêt pour les applications dans les GLAM sont supervisées; par exemple, ils travaillent en formant un prédicteur (comme un réseau de neurones) en utilisant la vérité au sol (sorties idéales et attendues) ou des données étiquetées, à partir desquelles la méthode est capable d'apprendre et de déduire un modèle. Pour que le modèle puisse bien généraliser et effectuer des prédictions précises pour un large éventail d'entrées, ses données d'entraînement doivent être d'un volume et d'une qualité suffisants et être représentatives du domaine à partir duquel il est échantillonné. Dans le cas contraire, il existe un risque de surajustement (le modèle ne fera que de bonnes prédictions pour des données d’entrée très similaires aux données d’entraînement) ou d’introduction de biais, ce qui non seulement réduira l’applicabilité et les performances générales du modèle, mais peut également entraîner des problèmes éthiques ou d’autres effets secondaires involontaires.

Le secteur GLAM est bien positionné pour l’adoption de l’IA/ML, en ce sens que des données conservées et diversifiées, d’un volume, d’une qualité et d’une diversité suffisants, sous la forme de collections numériques provenant de GLAM (telles que celles agrégées et fournies par Europeana), sont désormais largement disponibles sous licence ouverte. Ce qui fait actuellement défaut, c’est la plus grande disponibilité des ensembles de données du secteur GLAM qui sont appropriés pour une utilisation directe dans le contexte de la recherche et du développement en matière d’IA/ML. La disponibilité de ces ensembles de données ouvertes pourrait non seulement contribuer à favoriser un engagement accru en faveur des données numériques sur le patrimoine culturel dans l’IA/ML, mais aussi soutenir le transfert des avancées récentes en matière d’IA/ML vers le domaine de la conservation numérique et de l’analyse du contenu du patrimoine culturel. D'autre part, de nouvelles avancées en matière d'IA/ML vont souvent de pair avec la publication de nouveaux ensembles de données de haute qualité.

EuropeanaTech sollicite donc des propositions pour l’assemblage d’ensembles de données IA/ML appropriés, en s’appuyant sur les vastes collections du site web Europeana. Nous recherchons des propositions pour la création de grands ensembles de données bien documentés qui sont conçus pour une utilisation directe à des fins d'IA / ML (comme la formation d'un modèle) et qui peuvent être mis à la disposition du public sur les plateformes en ligne pertinentes sous des licences ouvertes.

Nous attribuerons aux deux propositions gagnantes une allocation financière de 2 500 € pour soutenir la production, la documentation et la publication des ensembles de données. Les lauréats seront invités à présenter leurs contributions lors d’un futur événement Europeana (en ligne) et à fournir un texte à publier en lien avec leurs réalisations.

Comment postuler

Pour postuler, veuillez lire les lignes directrices ci-dessous et soumettre une proposition au plus tard le 15 février 2021 à 23 h 59 HEC. Les propositions doivent décrire en moins de 1 500 mots:

Le contenu prévu de l'ensemble de données (en termes de volume, de types d'actifs, d'annotation, etc.)
La procédure que vous aviez l'intention de suivre pour produire l'ensemble de données
Comment il est pertinent pour l'IA / ML.

Les propositions devraient également inclure une suggestion de cas d'utilisation possible, étayée par un modèle pré-formé avec une démonstration ou une évaluation de ses résultats. En cas d’acceptation, il doit être possible de produire et de publier l’ensemble de données ainsi que toute la documentation et les ressources techniques nécessaires avant le 30 juin 2021.

Les collections du patrimoine culturel européen sont souvent sujettes à des préjugés et soulèvent des questions éthiques. Bien que cela puisse avoir un impact négatif sur les solutions d'IA et d'apprentissage automatique, l'IA et l'apprentissage automatique pourraient également être utilisés pour découvrir ces problèmes. Ces problèmes pourraient ne pas être résolus dans le cadre du présent appel, mais nous vous conseillons de les documenter et d'en discuter.

Soumettez votre proposition

Les ensembles de données DOIVENT:

être tirées des données figurant dans les différentes collections fournies par Europeana;
N'incluez que les métadonnées créées par vous ou provenant d'Europeana. Les métadonnées résultantes doivent être sous licence Creative Commons Zero;
être compilés dans un format lisible par machine, y compris la documentation et la provenance;
N'ont pas été publiés auparavant. Si elles sont publiées précédemment, les étapes doivent être détaillées quant à la manière dont le nouvel ensemble de données doit être amélioré et utilisé;
Inclure une description d’un ou de plusieurs cas d’utilisation prévus de l’ensemble de données.

Les ensembles de données DEVRAIENT:

inclure uniquement les actifs multimédias avec une licence compatible avec le niveau de contenu 3 d’Europeana Publishing Framework;
Clarifier la relation et la contribution aux meilleures pratiques en matière d’IA et de blanchiment de capitaux et à l’état de l’art dans le domaine du patrimoine culturel numérique;
Inclure un modèle préentraîné résultant de l’application [en utilisant une méthode de LM/IA de référence pour (l’un des) cas d’utilisation prévus] et une démonstration de l’utilisation de ce modèle ou de l’évaluation de ses résultats;
Documenter ou discuter d'éventuels problèmes et préjugés éthiques.

Les ensembles de données PEUVENT:

inclure des enrichissements et des améliorations supplémentaires en matière de conservation, tels que l’annotation des données, l’étiquetage ou les références croisées avec d’autres ressources (numériques), à condition que ceux-ci soient achevés avant la publication de l’ensemble de données et que des mesures appropriées de contrôle de la qualité soient appliquées;
Faire partie d'une publication dans une revue ou une conférence à comité de lecture.

Une documentation de base pour les solutions techniques doit être fournie et tout logiciel produit doit être publié sous une licence open source.

Dates clés

Ouverture de l'appel: 8 janvier 2021
Date limite pour les soumissions: 15 février 2021, 23 h 59 HEC
Notification des acceptations: 1er mars 2021
Publication de l’ensemble de données: 30 juin 2021

Critères d'attribution

Les soumissions seront examinées par le groupe de travail EuropeanaTech AI in GLAMs et le groupe de pilotage de la communauté EuropeanaTech sur la base des éléments suivants:

Pertinence du cas d'utilisation pour la communauté GLAM: 25%
Pertinence de l’ensemble de données pour l’IA/ML par rapport au cas d’utilisation: 25%
Définition claire du cas d’utilisation/de la démonstration par rapport à Europeana: 30%
Clarté dans la description de l’ensemble de données: 20%

Admissibilité

Officiellement, les fonds ne seront pas alloués à des individus mais à des institutions, qui peuvent être des institutions de patrimoine culturel ou de recherche, comprenant des universités. Un représentant de chaque institution lauréate sera invité à signer un contrat de sous-traitance avec la Fondation Europeana.
Les candidats doivent être basés dans un État membre de l'UE.
Les candidats doivent être membres de la communauté EuropeanaTech et de l'Europeana Network Association. Si vous n’êtes pas déjà membre, vous pouvez savoir comment vous inscrire.
L'attribution est le montant brut qui comprend donc la TVA.
Les partenaires du projet Europeana DSI-4 ne sont pas éligibles au financement. La liste complète est disponible ici.

Lecture recommandée

Cette page a été modifiée le 19/01/2021 pour refléter la prolongation du délai du 31 janvier 2021 au 15 février 2021. Il a été modifié le 16 avril 2021 afin de tenir compte de la prolongation du délai imparti aux lauréats pour fournir leurs ensembles de données d’ici juin 2021.