Treinar o nosso modelo de classificação de imagens

Publicado 2 de junho de 2021

Um modelo para a classificação de rótulo único

O conjunto de dados que reunimos para o nosso piloto de classificação de imagens foi adequado para treinar um modelo de classificação de rótulo único - ou seja, um modelo que produz uma única categoria por imagem. Os rótulos ou categorias do conjunto de dados de treino são também conhecidos como «verdade de base», o que significa que são os rótulos verdadeiros ou corretos para as imagens em causa.

Usamos um tipo de rede neural convolucional como nosso classificador para as imagens, que é um modelo matemático com uma estrutura em camadas inspirada no funcionamento do cérebro. Uma rede neural convolucional é um modelo de aprendizagem profunda projetado para extrair informações relevantes de imagens, e são a escolha habitual para aplicações de visão computacional.

No nosso caso, a entrada do modelo foi uma imagem, e a saída foi uma distribuição de probabilidade sobre todas as categorias do vocabulário-alvo. Deu a cada categoria um número entre 0 e 1 que é frequentemente interpretado como uma pontuação de confiança. Este modelo foi então treinado através da previsão iterativa de imagens a partir do conjunto de dados, e corrigindo as previsões resultantes comparando-as com a verdade real.

Uma vez que o modelo foi treinado, avaliou-se seu desempenho testando-o em imagens invisíveis e comparando se a previsão feita pelo modelo correspondia ao conceito retratado na imagem. Também empregamos um algoritmo de IA explicável que nos ajudou a compreender a saída do modelo, visualizando as regiões de interesse para cada uma das categorias de saída. Isto permitiu-nos compreender as áreas da imagem que são mais relevantes para cada categoria, o que forneceu pistas sobre o funcionamento interno do modelo.

Abaixo, pode ver vários exemplos de previsões em amostras obtidas utilizando a API de pesquisa, juntamente com as pontuações de confiança e os mapas de explicabilidade. O modelo utiliza as seguintes imagens: aanzicht, Beeldbank van de Rijksdienst voor het Cultureel Erfgoed, Países Baixos, G.Th. Delemarre, 1965-03, CC-BY-SA. Lerkärl, kärl, vessel@eng, Vasija, Världskulturmuseet, Suécia, CC-BY. Esimene rohelus, Eesti Sõjamuuseum - Kindral Laidoneri Muuseum, Estónia, Genin, CC0.

As nossas aprendizagens

A partir dos resultados anteriores, podemos ver que o modelo foi capaz de captar com sucesso os conceitos mais relevantes do vocabulário para as imagens dadas. Embora esteja longe de ser perfeito, o modelo pode aprender com nossas coleções enriquecidas e pode ser aplicado a novas imagens para gerar metadados potencialmente úteis.

A principal limitação da nossa abordagem é que os conceitos do vocabulário não são exclusivos, o que não se alinha bem com uma única classe por imagem. Por exemplo, uma imagem pode ser uma fotografia e conter um edifício e uma escultura, mas devido à abordagem de rótulo único, só podemos treinar e avaliar nosso modelo para identificar um desses aspectos.

Isso nos dá um modelo que muitas vezes produz uma alta pontuação de confiança para apenas uma das categorias, com a confiança para o resto das categorias baixa. Ao definir um limiar baixo para as pontuações de confiança da saída, podemos obter mais de uma etiqueta como a saída. No entanto, esta abordagem não é ideal, uma vez que todas as pontuações de confiança precisam somar a uma (como em qualquer distribuição de probabilidade legal), o que impede valores de confiança elevados no caso de um vocabulário com múltiplas categorias.

Idealmente, o nosso modelo seria um classificador multi-rótulo - um modelo que é treinado com mais de uma etiqueta por imagem e que é capaz de produzir altas pontuações de confiança para várias categorias.

Importa igualmente referir que o nosso conjunto de dados foi montado sem supervisão humana (não analisámos as imagens obtidas nem verificámos se estão ou não alinhadas com as categorias). Isto significa que a qualidade do conjunto de dados dependerá dos metadados associados aos objetos do património cultural e de enriquecimentos automáticos anteriores baseados em metadados. Na prática, nem todas as imagens do conjunto de dados de treino estavam alinhadas com as categorias corretas.

Próximas etapas

Estamos atualmente a montar um conjunto de dados de treino para classificação multi-rótulo, e vamos partilhar o nosso trabalho e abordagem numa futura publicação de notícias Pro - fique atento! Entretanto, pode explorar o nosso repositório Github para o projeto-piloto e este bloco de notas Colab, onde pode fazer as suas próprias perguntas à API de pesquisa da Europeana e aplicar o modelo de classificação de rótulo único.

Não hesite em contactar-nos em [email protected] se tiver alguma dúvida ou ideia!

Treinar o nosso modelo de classificação de imagens

Partilhar

Um modelo para a classificação de rótulo único

As nossas aprendizagens

Próximas etapas

Descubra conteúdo relacionado