Anúncio do desafio EuropeanaTech para os conjuntos de dados de inteligência artificial e aprendizagem automática da Europeana

Publicado 8 de janeiro de 2021 por

Gregory Markus (Netherlands Institute for Sound & Vision)

Sobre a chamada

Os métodos do domínio da inteligência artificial e da aprendizagem automática (IA/ML) ajudaram a ultrapassar as fronteiras tecnológicas em vários domínios, incluindo no setor do património cultural (ver exemplos no relatório intercalar da EuropeanaTech AI em relação ao grupo de trabalho GLAM ou à iniciativa AI4LAM).

Muitos métodos de IA/ML de interesse para aplicações em GLAM são supervisionados; por exemplo, trabalham treinando um preditor (como uma rede neural) utilizando a verdade fundamental (saídas ideais e esperadas) ou dados rotulados, a partir dos quais o método é capaz de aprender e inferir um modelo. Para que o modelo se generalize bem e realize previsões precisas para um vasto leque de entradas, os seus dados de treino têm de ser de volume e qualidade suficientes e ser representativos do domínio a partir do qual é amostrado. Caso contrário, existe o risco de sobreajustamento (o modelo só fará boas previsões para entradas que sejam muito semelhantes aos dados de treino) ou a introdução de enviesamentos, o que não só reduzirá a aplicabilidade geral e o desempenho do modelo, como também pode implicar efeitos secundários eticamente problemáticos ou não intencionais.

O setor GLAM está bem posicionado para a adoção da IA/ML, no sentido em que dados com curadoria e diversificados de volume, qualidade e diversidade suficientes sob a forma de coleções digitais de GLAM (como as agregadas e fornecidas pela Europeana) estão agora amplamente disponíveis ao abrigo de licenças abertas. O que falta atualmente é uma maior disponibilidade de conjuntos de dados do setor GLAM que sejam adequados para utilização direta no contexto da investigação e desenvolvimento no domínio da IA/LM. A disponibilidade desses conjuntos de dados abertos poderia não só ajudar a promover um maior envolvimento com os dados do património cultural digital em IA/ML, mas também apoiar a transferência dos recentes avanços em IA/ML para o domínio da curadoria digital e da análise de conteúdos do património cultural. Por outro lado, novos avanços na IA/ML muitas vezes andam de mãos dadas com a divulgação de novos conjuntos de dados de alta qualidade.

Por conseguinte, a EuropeanaTech convida à apresentação de propostas para a montagem de conjuntos de dados adequados em matéria de IA/LM, com base nas extensas coleções no sítio Web da Europeana. Procuramos propostas para a criação de grandes conjuntos de dados bem documentados que sejam moldados para adoção direta para fins de IA/LM (como o treino de um modelo) e que possam ser disponibilizados ao público nas plataformas em linha pertinentes ao abrigo de licenças abertas.

Iremos atribuir às duas propostas vencedoras uma bolsa financeira de 2.500 euros para apoiar a produção, documentação e publicação dos conjuntos de dados. Os vencedores dos prémios serão convidados a apresentar os seus contributos num futuro evento Europeana (em linha) e a fornecer um texto para publicação relacionado com os seus resultados.

Como candidatar-se

Para se candidatar, leia as orientações abaixo e apresente uma proposta até 15 de fevereiro de 2021, às 23h59 (hora da Europa Central). As propostas devem descrever em menos de 1500 palavras:

O conteúdo pretendido do conjunto de dados (em termos de volume, tipos de ativos, anotação, etc.)
O procedimento que pretende seguir para produzir o conjunto de dados
Qual a sua relevância para a IA/ML?

As propostas devem também incluir uma sugestão para um possível caso de utilização, apoiada por um modelo pré-treinado com uma demonstração ou avaliação dos seus resultados. Em caso de aceitação, deve ser viável produzir e divulgar o conjunto de dados e toda a documentação e recursos técnicos necessários antes de 30 de junho de 2021.

As coleções do património cultural europeu estão geralmente sujeitas a preconceitos e envolvem questões éticas. Embora tal possa ter um impacto negativo nas soluções de IA e de aprendizagem automática, a IA e a aprendizagem automática também podem ser utilizadas para descobrir estes problemas. Estas questões podem não ser resolvidas no âmbito do presente convite, mas aconselhamo-lo a documentá-las e a discuti-las.

Apresentar a sua proposta

Os conjuntos de dados devem:

Ser elaborado a partir de dados incluídos nas várias recolhas fornecidas através da Europeana;
Inclua apenas metadados criados por si ou provenientes da Europeana. Os metadados resultantes devem ser licenciados ao abrigo do Creative Commons Zero;
Ser compiladas num formato legível por máquina, incluindo a documentação e a proveniência;
Não foi publicado anteriormente. Se publicado anteriormente, as etapas devem ser pormenorizadas quanto à forma como o novo conjunto de dados deve ser melhorado e utilizado;
Incluir uma descrição de um ou mais casos de utilização prevista do conjunto de dados.

Os conjuntos de dados DEVEM:

Incluir apenas os meios de comunicação social com uma licença compatível com o nível 3 de conteúdos do Quadro de Publicação da Europeana;
Clarificar a relação e o contributo para as melhores práticas e o estado da arte no domínio da IA e do branqueamento de capitais no âmbito do património cultural digital;
Incluir um modelo pré-treinado resultante da aplicação (utilizando um método ML/AI de referência para (um dos) casos de utilização previstos) e uma demonstração da utilização deste modelo ou da avaliação dos seus resultados;
Documentar ou debater potenciais questões éticas e preconceitos.

Os conjuntos de dados podem:

Incluir enriquecimentos e melhorias curatoriais adicionais, como a anotação de dados, a rotulagem ou o cruzamento com outros recursos (digitais), na condição de estes serem concluídos antes da publicação do conjunto de dados e de serem aplicadas medidas adequadas de controlo da qualidade;
Fazer parte de uma publicação em uma revista ou conferência revisada por pares.

A documentação básica para soluções técnicas deve ser fornecida e qualquer software produzido deve ser lançado sob uma licença de código aberto.

Principais datas

Abertura do convite: 8 de janeiro de 2021
Prazo para apresentação de propostas: 15 de fevereiro de 2021, às 23h59 (hora da Europa Central)
Notificação de aceitação: 1 de março de 2021
Publicação do conjunto de dados: 30 de junho de 2021

Critérios de adjudicação

As propostas serão analisadas pelo grupo de trabalho EuropeanaTech AI in GLAMs e pelo grupo diretor da comunidade EuropeanaTech com base nos seguintes elementos:

Relevância do caso de utilização para a comunidade GLAM: 25%
Pertinência do conjunto de dados para a IA/LM em relação ao caso de utilização: 25%
Definição clara do caso/demo de utilização em relação à Europeana: 30%
Clareza na descrição do conjunto de dados: 20%

Elegibilidade

Formalmente, os fundos não serão atribuídos a indivíduos, mas a instituições, que podem ser instituições de património cultural ou de investigação, incluindo universidades. Será solicitado a um representante de cada instituição adjudicatária que assine um subcontrato com a Fundação Europeana.
Os candidatos devem estar sediados num Estado-Membro da UE.
Os candidatos devem ser membros da comunidade EuropeanaTech e da Associação da Rede Europeana. Se ainda não é membro, pode saber como aderir.
A adjudicação é o montante bruto, pelo que inclui o IVA.
Os parceiros do projeto Europeana DSI-4 não são elegíveis para financiamento. A lista completa está disponível aqui.

Leitura recomendada

Esta página foi editada em 19.1.2021 para refletir a prorrogação do prazo de 31 de janeiro de 2021 para 15 de fevereiro de 2021. Foi editado em 16.4.2021 para refletir o prazo alargado para os vencedores apresentarem os seus conjuntos de dados até junho de 2021.