Anuncio del reto EuropeanaTech para los conjuntos de datos de inteligencia artificial y aprendizaje automático de Europeana

Publicado 8 de enero de 2021 por

Gregory Markus (Netherlands Institute for Sound & Vision)

Acerca de la llamada

Los métodos del ámbito de la inteligencia artificial y el aprendizaje automático (IA/ML) han ayudado a superar los límites tecnológicos en diversos ámbitos, incluido el sector del patrimonio cultural (véanse ejemplos en el informe provisional de EuropeanaTech AI en relación con el Grupo de Trabajo GLAM o la iniciativa AI4LAM).

Se supervisan muchos métodos de IA/ML de interés para las aplicaciones en GLAM; por ejemplo, trabajan entrenando un predictor (como una red neuronal) utilizando la verdad de la tierra (resultados ideales y esperados) o datos etiquetados, de los cuales el método es capaz de aprender e inferir un modelo. Para que el modelo generalice bien y realice predicciones precisas para una amplia gama de entradas, sus datos de entrenamiento deben ser de suficiente volumen, calidad y ser representativos del dominio del que se muestrea. De lo contrario, existe el riesgo de sobreajuste (el modelo solo hará buenas predicciones para entradas que sean muy similares a los datos de entrenamiento) o la introducción de sesgos, lo que no solo reducirá la aplicabilidad general y el rendimiento del modelo, sino que también puede conllevar efectos secundarios éticamente problemáticos o no deseados.

El sector GLAM está bien posicionado para la adopción de la IA/ML en el sentido de que los datos curados y diversos de volumen, calidad y diversidad suficientes en forma de colecciones digitales de GLAM (como los agregados y proporcionados por Europeana) ahora están ampliamente disponibles bajo licencias abiertas. Lo que falta actualmente es una mayor disponibilidad de conjuntos de datos del sector GLAM que sean adecuados para su uso directo en el contexto de la investigación y el desarrollo de IA/ML. La disponibilidad de tales conjuntos de datos abiertos no solo podría ayudar a fomentar un mayor compromiso con los datos digitales del patrimonio cultural en IA/ML, sino también apoyar la transferencia de los recientes avances en IA/ML al ámbito de la curación y el análisis digitales de los contenidos del patrimonio cultural. Por otro lado, los nuevos avances en IA / ML a menudo van de la mano con el lanzamiento de nuevos conjuntos de datos de alta calidad.

Por consiguiente, EuropeanaTech invita a presentar propuestas para el montaje de conjuntos de datos adecuados de IA/ML, a partir de las extensas colecciones del sitio web de Europeana. Estamos buscando propuestas para la creación de conjuntos de datos grandes y bien documentados que estén configurados para su adopción directa con fines de IA / ML (como entrenar un modelo) y que puedan ponerse a disposición del público en las plataformas en línea relevantes bajo licencias abiertas.

Otorgaremos a las dos propuestas ganadoras un estipendio financiero de € 2,500 para apoyar la producción, documentación y publicación de los conjuntos de datos. Se invitará a los ganadores de los premios a presentar sus contribuciones en un futuro acto de Europeana (en línea) y a facilitar un texto para su publicación relacionado con sus resultados.

Cómo presentar una solicitud

Para presentar una solicitud, lea las directrices de presentación que figuran a continuación y presente una propuesta a más tardar el 15 de febrero de 2021, a las 23:59 horas (hora central europea). Las propuestas deben describir en menos de 1.500 palabras:

El contenido previsto del conjunto de datos (en términos de volumen, tipos de activos, anotación, etc.)
El procedimiento que tenía la intención de seguir para producir el conjunto de datos
Cómo es relevante para AI/ML.

Las propuestas también deben incluir una sugerencia para un posible caso de uso, respaldada por un modelo pre-entrenado con una demostración o evaluación de sus resultados. En caso de aceptación, debe ser factible producir y divulgar el conjunto de datos y toda la documentación y los recursos técnicos necesarios antes del 30 de junio de 2021.

Las colecciones del patrimonio cultural europeo suelen estar sujetas a sesgos e implican cuestiones éticas. Si bien esto puede afectar negativamente a la IA y las soluciones de aprendizaje automático, la IA y el aprendizaje automático también podrían usarse para descubrir estos problemas. Es posible que estos problemas no se superen dentro del alcance de esta convocatoria, pero le recomendamos que los documente y los discuta.

Envíe su propuesta

Los conjuntos de datos DEBEN:

extraerse de los datos incluidos en las distintas colecciones facilitadas a través de Europeana;
Solo incluya metadatos creados por usted o procedentes de Europeana. Los metadatos resultantes deben estar licenciados bajo Creative Commons Zero;
Se compilará en un formato legible por máquina que incluya la documentación y la procedencia;
No se han publicado antes. Si se ha publicado previamente, deberán detallarse los pasos para mejorar y utilizar el nuevo conjunto de datos;
Incluya una descripción de uno o más casos de uso previsto del conjunto de datos.

Los conjuntos de datos DEBEN:

Incluir únicamente activos multimedia con una licencia compatible con el nivel 3 del contenido de Europeana Publishing Framework.
Aclarar la relación con las mejores prácticas de IA y ML y el estado de la técnica en el patrimonio cultural digital, así como su contribución a las mismas;
Incluir un modelo preentrenado resultante de la aplicación (utilizando un método ML/AI de referencia para (uno de) los casos de uso previstos) y una demostración del uso de este modelo o la evaluación de sus resultados;
Documentar o discutir posibles problemas éticos y sesgos.

Los conjuntos de datos PUEDEN:

Incluir enriquecimientos y mejoras curatoriales adicionales, como la anotación de datos, el etiquetado o las referencias cruzadas con otros recursos (digitales), a condición de que se completen antes de la publicación del conjunto de datos y de que se apliquen las medidas de control de calidad adecuadas;
Formar parte de una publicación en una revista o conferencia revisada por pares.

Se debe proporcionar documentación básica para soluciones técnicas y cualquier software producido debe publicarse bajo una licencia de código abierto.

Fechas clave

Se abre la convocatoria: 8 de enero de 2021
Fecha límite para la presentación de propuestas: 15 de febrero de 2021, a las 23.59 horas (hora central europea)
Notificación de aceptaciones: 1 de marzo de 2021
Publicación del conjunto de datos: 30 de junio de 2021

Criterios de adjudicación

Las presentaciones serán revisadas por el Grupo de Trabajo EuropeanaTech AI in GLAMs y el Grupo Directivo de la Comunidad EuropeanaTech sobre la base de:

Relevancia del caso de uso para la comunidad GLAM: 25%
Pertinencia del conjunto de datos para la IA/ML en relación con el caso de uso: 25%
Definición clara del caso de uso/demo en relación con Europeana: 30%
Claridad en la descripción del conjunto de datos: 20%

Admisibilidad

Formalmente, los fondos no se asignarán a individuos sino a instituciones, que pueden ser instituciones de patrimonio cultural o de investigación, que comprenden universidades. Se pedirá a un representante de cada institución adjudicataria que firme un subcontrato con la Fundación Europeana.
Los solicitantes deben tener su sede en un estado miembro de la UE.
Los solicitantes deben ser miembros de la comunidad EuropeanaTech y Europeana Network Association. Si aún no eres miembro, puedes averiguar cómo unirte.
La adjudicación es el importe bruto, por lo tanto, incluye el IVA.
Los socios del proyecto DSI-4 de Europeana no pueden optar a financiación. La lista completa puede consultarse aquí.

Lectura recomendada

Esta página se editó el 19.1.2021 para reflejar la ampliación del plazo del 31 de enero de 2021 al 15 de febrero de 2021. Se editó el 16.4.2021 para reflejar el plazo ampliado para que los ganadores entreguen sus conjuntos de datos antes de junio de 2021.