Conclusão do projeto-piloto de classificação de imagens Europeana

Publicado 2 de novembro de 2021

Um modelo de classificação multi-rotulagem

Tal como explorado em publicações anteriores do Pro, na Fundação Europeana temos vindo a realizar um projeto-piloto de classificação de imagens, formando um modelo de classificação de imagens com uma única etiqueta para enriquecer as nossas coleções. O modelo que desenvolvemos foi capaz de classificar as imagens em categorias do nosso vocabulário-alvo, mas apenas identificou um aspeto (ou «rótulo») de cada imagem. Assim, começámos a trabalhar na formação do modelo para classificar uma imagem com mais do que um rótulo - para que conceitos como «fotografia» e «escultura» pudessem ser identificados na mesma imagem.

Para treinar este modelo de classificação de imagens multi-rotulagem, tivemos de reunir um conjunto de dados de treino que continha imagens com múltiplas etiquetas nos seus metadados. Utilizámos a API de pesquisa Europeana procurando objetos indexados com mais do que um conceito do nosso vocabulário, o que resultou num total de 9 000 objetos. Tal como no nosso anterior esforço de classificação de rótulo único, não analisámos este conjunto de dados, pelo que a qualidade dos rótulos dependia da qualidade dos enriquecimentos anteriores.

No caso da classificação multi-rótulo, os metadados corretos (ou verdade básica) continham mais de um rótulo para cada imagem. Treinou-se uma rede neural convolucional para classificar as imagens e, em seguida, utilizou-se o modelo resultante em objetos obtidos a partir da API de Pesquisa. Pode ver alguns dos exemplos com as suas previsões, pontuações de confiança e mapas de interpretabilidade abaixo.

As nossas aprendizagens

A partir de nossas experiências, concluímos que o modelo é capaz de identificar corretamente vários rótulos relevantes para as imagens dadas. A abordagem multi-rotulagem é mais útil do que a utilização de rótulos únicos, uma vez que pode aplicar vários rótulos a cada imagem com elevada confiança.

Apesar dos resultados interessantes, o desempenho do modelo resultante está longe de ser perfeito, e podemos atribuir isso a vários fatores. O mais importante é a qualidade relativamente baixa do conjunto de dados recolhidos. O Tribunal constatou que muitas das imagens obtidas não têm metadados corretos.

Além disso, a maior parte dos dados utilizados para a formação foi fornecida pelo Norwegian DigitalMuseum. Isto significa que os dados de treino não refletem toda a distribuição de dados na Europeana, o que faz com que o modelo seja enviesado para os dados com os quais foi treinado. Os enviesamentos dos dados de formação traduzir-se-ão numa falta de generalização para o resto das imagens da Europeana. Em termos simples, o modelo terá um bom desempenho em imagens semelhantes às contidas no conjunto de dados de treinamento, mas falhará se as imagens forem muito diferentes.

Em geral, os nossos dados de treino são suficientemente bons para que o modelo aprenda alguns padrões básicos. O modelo saiu-se bem apesar da configuração desafiadora de usar dados com rótulos incorretos. No entanto, a qualidade dos enriquecimentos anteriores não é adequada para utilizá-los como dados de treino para a construção de um modelo para enriquecer as nossas coleções. Uma solução para isso é criar um conjunto de dados de treino de maior qualidade, para garantir que o nosso modelo é apresentado com os rótulos certos.

Trabalhos futuros: crowdsourcing

Depois de treinar e avaliar o modelo de classificação multi-rotulagem, concluímos que atribuir várias etiquetas às imagens da nossa coleção é mais adequado do que enriquecê-las com uma única etiqueta.

Estamos a considerar expandir o vocabulário através da inclusão de outros termos relevantes para o património cultural. Mais importante ainda, estamos a planear rever e expandir o conjunto de dados de treino, com o objetivo de identificar e corrigir possíveis enviesamentos e erros. Gostaríamos de garantir que o nosso modelo é apresentado com os rótulos certos, o que se espera que tenha um desempenho significativamente melhor do que quando treinado com rótulos "ruidosos". Lançámos uma campanha de crowdsourcing para construir um conjunto de dados anotados de alta qualidade com o Zooniverse e congratulamo-nos com as contribuições da nossa comunidade.

Pode acompanhar o nosso trabalho neste repositório do Github. Convidamo-lo igualmente a experimentar este bloco de notas Colab, onde pode fazer as suas próprias perguntas à API de pesquisa da Europeana e aplicar o modelo de classificação multi-rótulo. Não hesite em contactar-nos em [email protected] se tiver alguma dúvida ou ideia!

Conclusão do projeto-piloto de classificação de imagens Europeana

Partilhar

Um modelo de classificação multi-rotulagem

As nossas aprendizagens

Trabalhos futuros: crowdsourcing

Descubra conteúdo relacionado