Encontros com a IA: um mergulho profundo na análise de conteúdo de imagem

Publicado 20 de junho de 2024 por

Henk Vanstappen (Datable)

Marco Rendina (European Fashion Heritage Association)

Marco Rendina: Para iniciar a conversa, pode dizer-nos exatamente o que é a análise de conteúdo de imagem?

Henk Vanstappen: A análise de conteúdo de imagem, também conhecida como análise visual, é o processo de extração de informações de imagens digitais. Utiliza técnicas e algoritmos sofisticados para analisar vários aspetos de uma imagem, tais como objetos, padrões, cores, texturas e formas. Esta tecnologia está a ser utilizada em vários domínios, desde o diagnóstico médico à videovigilância.

MR: Em que medida tal é relevante para o setor do património cultural?

HV: No património cultural, encontramos muitas vezes vastas coleções de imagens digitais com metadados mínimos sobre o seu conteúdo real. Imaginem um extenso arquivo fotográfico onde apenas a data e o fotógrafo são gravados. Para o utilizador médio, navegar e pesquisar através de tal coleção sem informações textuais seria uma tarefa árdua. A análise de imagens pode automatizar a deteção de objetos, classificar imagens em grupos significativos (por exemplo, imagens que contenham pessoas) e muito mais, tornando estas coleções mais acessíveis. Pode encontrar alguns bons exemplos do que é exequível noutra série de publicações noticiosas no Europeana Pro.

MR: Compreendo que tenha sido desenvolvida uma ferramenta de deteção de objetos para o projeto AI4Culture - o que pode dizer-nos sobre isso?

HV: É uma ferramenta de detecção de objetos e sujeitos. A detecção de objetos identifica objetos físicos dentro de uma imagem, como uma estação ferroviária ou um vestido. A detecção de objetos determina o assunto mais amplo, como "arquitetura", "tráfego" ou "moda". Esta ferramenta está disponível em diferentes "sabores" para atender a vários casos de uso.

MR: Gosto desta ideia de uma ferramenta digital com «sabores» - faz com que pareça muito acessível. Quais são os múltiplos "sabores"?

HV: Queríamos fornecer a ferramenta mais adequada para diferentes cenários. O «sabor» básico inclui uma ferramenta simples de deteção de objetos de alta velocidade que utiliza o modelo MobileNet-SSD v3. É capaz de reconhecer objetos comuns, como carros, aviões ou pessoas – pode, por exemplo, utilizá-lo para rastrear coleções de imagens para detetar conteúdos sensíveis à privacidade.

A segunda ferramenta embalada no serviço emprega um sofisticado modelo de IA generativa (Salesforce/blip-vqa-base) que pode compreender e responder a perguntas sobre o conteúdo de uma imagem, semelhante à forma como o ChatGPT funciona com texto. Embora mais avançada do que a versão básica, não consegue identificar a localização de um objeto dentro da imagem.

A terceira opção do pacote aproveita o serviço Vision da Google, que oferece capacidades de deteção ainda maiores. No entanto, como um serviço comercial, requer uma conta de utilizador no Google Cloud, um serviço na nuvem que oferece detecção de objetos, tornando-o mais adequado para uso avançado.

MR: Há também uma ferramenta de detecção de cores disponível. O que torna a análise de cores significativa?

HV: A cor é um aspeto crucial de determinadas coleções, como as relacionadas com o design e a moda. No entanto, definir cores é um processo altamente subjetivo. Enquanto o olho humano pode discernir uma peça de joalharia como ouro ou cobre, um computador pode simplesmente percebê-lo como amarelo. Além disso, para um computador, as cores de uma imagem de uma ovelha em um prado são apenas "branco" e "verde". Fizemos algoritmos que podem isolar objectos do fundo e identificar com precisão as suas cores.

MR: Esta ferramenta também incorpora a detecção de objetos?

HV: Sim. Embora a ferramenta possa isolar automaticamente objetos, os utilizadores também podem ajudar especificando a região onde um objeto está localizado. Desta forma, pode aproveitar a saída da ferramenta de deteção de objetos para obter as cores de vários objetos dentro de uma única imagem, se estiver presente.

MR: E a ferramenta de deteção de objetos também tem sabores diferentes?

HV: Na verdade. A primeira versão conta os píxeis do objeto detetado, agrupa-os em cores e devolve a proporção de cada cor em percentagem. A segunda versão utiliza o mesmo modelo de IA generativa que a ferramenta de deteção de objetos, proporcionando uma interpretação mais humana das cores. No entanto, não oferece proporções de cor precisas, mas devolve um conjunto limitado de três ou quatro cores dominantes por objeto.

MR: Isso é bastante abrangente. Estas ferramentas geram saídas apenas em inglês?

HV: De modo nenhum. As ferramentas também fornecem links para o Wikidata, uma extensa base de conhecimento que alimenta a Wikipédia (veja, por exemplo, o identificador do conceito "endereço"). Isto permite que os utilizadores acedam a nomes de cores e objetos em praticamente qualquer língua suportada pelo Wikidata, melhorando a acessibilidade das ferramentas em diversas comunidades linguísticas.

MR: Com tal tecnologia avançada, há preocupações éticas em relação ao futuro? A análise de imagens pode eventualmente substituir os especialistas humanos?

HV: Embora a tecnologia continue a evoluir e se tornar mais sofisticada, é improvável que substitua totalmente a experiência humana em breve. Algoritmos, embora poderosos, não são infalíveis, assim como a análise humana às vezes pode ser subjetiva. No entanto, estas ferramentas baseadas na IA oferecem vantagens significativas: são notavelmente rápidos, consistentes e inabaláveis na sua concentração em tarefas repetitivas. Em última análise, servem como complementos valiosos para os peritos humanos, permitindo-lhes dedicar o seu tempo a esforços mais matizados e criativos, aproveitando simultaneamente a IA para o tratamento de dados em grande escala.

MR: Quão difícil é para os utilizadores trabalhar com estas ferramentas?

HV: Para os interessados em explorar as capacidades das ferramentas, desenvolvemos uma interface gráfica básica para a deteção de cores e a ferramenta de deteção de objetos, onde os utilizadores podem introduzir o URL de uma imagem online e testar os vários sabores e definições. Esta ferramenta baseada na Web não requer instalação no computador do utilizador, embora a opção de transferir e executá-la localmente também esteja disponível. No entanto, para integrar estas ferramentas nas bases de dados existentes e processar grandes quantidades de imagens, será necessário algum conhecimento de programação. Para tais casos de uso avançados, fornecemos documentação abrangente na nossa página do GitHub para orientar os desenvolvedores através do processo de integração sem problemas.

Mais informações

Em setembro de 2024, o projeto AI4Culture lançará uma plataforma onde serão disponibilizadas em linha ferramentas abertas, como as ferramentas de deteção acima apresentadas, juntamente com documentação e materiais de formação conexos. Fique de olho na página do projeto no Europeana Pro para obter mais detalhes e fique ligado na conta do projeto LinkedIn e X!

A ferramenta de deteção de objetos e objetos também está integrada na plataforma de agregação MINT e é oferecida como um serviço de valor acrescentado pronto a utilizar aos seus utilizadores. A interface gráfica do utilizador permite aos utilizadores MINT enriquecer os seus metadados com as anotações extraídas pela ferramenta de análise de imagens com apenas alguns cliques. Se estiver interessado em tirar partido desta nova funcionalidade MINT, pode seguir este vídeo tutorial.

Encontros com a IA: um mergulho profundo na análise de conteúdo de imagem

Partilhar

Mais informações

Descubra conteúdo relacionado