Encontros com a IA: uma entrevista sobre enriquecimento semântico automático

Publicado 4 de julho de 2024 por

Eirini Kaldeli (National Technical University of Athens)

Marco Rendina (European Fashion Heritage Association)

Alexandros Chortaras (National Technical University of Athens)

Marco Rendina: Comecemos pelo básico. O que é enriquecimento semântico?

Eirini Kaldeli: O enriquecimento semântico é o processo de adicionar novas semânticas a dados não estruturados, como texto livre, para que as máquinas possam dar sentido a isso e construir conexões com ele. No caso de metadados textuais que descrevem bens do património cultural, estes podem ser analisados e aumentados com termos controlados a partir de conjuntos de dados ou vocabulários abertos ligados, como o Wikidata ou o Getty Art & Architecture Thesaurus (AAT). Estes termos são geralmente referidos como anotações e podem representar conceitos e atributos (como «Custo» ou «Renascimento»), pessoas, locais, organizações ou períodos cronológicos. Por exemplo, as cordas «Leonardo da Vinci» e «da Vinci, Leonardo» podem ser ligadas ao elemento Wikidata que representa o polímata renascentista italiano.

MR: Por que é importante enriquecer metadados com termos de conjuntos de dados abertos vinculados ou vocabulários?

EK: O enriquecimento semântico acrescenta significado e contexto às coleções digitais e torna-as mais facilmente detetáveis. Dada a sua importância, tem sido uma das principais preocupações e foco dos esforços da Iniciativa Europeana, bem como dos agregadores individuais e dos fornecedores de dados.

Em primeiro lugar, os dados ligados tornam os metadados textuais inequívocos. Por exemplo, a expressão «Leonardo da Vinci» pode também referir-se, consoante o contexto, ao aeroporto italiano ou a um couraçado com o mesmo nome. Cada um destes conceitos são representados através de um URI dedicado (Unique Reference Identifier) da Wikidata, e, assim, ao vincular o texto com o URI correto, torna-se claro a que o texto se refere.

Em segundo lugar, os dados ligados permitem-nos obter informações adicionais sobre uma determinada entidade, estabelecer ligações entre diferentes recursos e contextualizá-los. Por exemplo, permite-nos associar artigos marcados com o termo «ring» ao conceito mais amplo de «joalharia» e interligá-los com artigos enriquecidos com o termo «bracelete», que é também um exemplo de «joalharia».

Por último, os dados ligados são normalmente acompanhados de traduções, o que melhora as capacidades de pesquisa multilingue. Tal permite que as pessoas que utilizam repositórios em linha naveguem e pesquisem coleções no chamado «nível semântico»: alguém que procure «κόσμημα» (a palavra grega para «joalharia») poderá descobrir artigos descritos como anéis, bem como pulseiras.

MR: Alexandros, o enriquecimento de metadados requer esforço e recursos que muitas vezes faltam às instituições responsáveis pelo património cultural. Como podem as tecnologias digitais ajudar a enfrentar este desafio?

Alexandros Chortaras: As instituições responsáveis pelo património cultural podem utilizar tecnologias de ponta para automatizar o processo manual, moroso e muitas vezes mundano de enriquecimento de metadados. As ferramentas de processamento de linguagem natural podem ser utilizadas para analisar metadados textuais e detetar e classificar entidades nomeadas, como nomes de pessoas ou de locais, mencionadas em texto não estruturado. As abordagens de aprendizagem automática são amplamente utilizadas para a tarefa de desambiguação da entidade designada, que é responsável por decidir se, por exemplo, a referência a «Leonardo da Vinci» no texto se refere ao polímata italiano ou ao couraçado. Dependendo das características do texto, como a sua extensão e linguagem, o vocabulário a que desejamos vinculá-lo e o tipo de entidades que desejamos detetar, é necessário combinar as ferramentas que são mais adequadas para a tarefa específica. Por exemplo, a partir da nossa experiência com projetos anteriores, como o CRAFTED, para determinadas tarefas com um contexto restrito bem definido, mesmo uma abordagem simples de lematização e correspondência de cadeias de caracteres pode ser mais adequada do que algoritmos complexos baseados em ML.

MR: Mas posso confiar totalmente nos resultados de um algoritmo automático? E se cometerem erros?

AC: Na verdade, algoritmos automáticos que analisam texto livre para reconhecimento e desambiguação de entidades nomeadas cometem erros. A precisão depende da tarefa em mãos e do algoritmo aplicado. Por exemplo, descrições textuais curtas que são comuns em metadados carecem de contexto e, portanto, os algoritmos ML treinados em artigos da Wikipédia podem resultar em correspondências incorretas.

Além disso, mesmo que as ligações automaticamente detetadas estejam corretas, podem ser consideradas indesejáveis num determinado contexto. Por exemplo, vincular registros de metadados a termos que representam cores pode ser importante para uma coleção de moda, mas pode ser indesejável para descrever um manuscrito que menciona uma determinada cor. Assim, a inspeção humana e a validação de anotações automáticas são indispensáveis. No entanto, uma vez que muitas vezes há milhares de anotações automáticas, a validação manual pode ser um processo muito intensivo em recursos. A nível prático, os seres humanos devem rever uma amostra selecionada das anotações e, dependendo dos resultados e do objetivo, decidir sobre os critérios de filtragem adequados.

MR: Uma última pergunta para a Eirini. Há muitos algoritmos e bibliotecas por aí, mas parece que é necessário um conhecimento técnico considerável para configurá-los. De que forma a AI4Culture ajuda as instituições responsáveis pelo património cultural a tirar partido dessas tecnologias?

ΕΚ: No contexto do projeto AI4Culture, estamos a trabalhar numa plataforma, denominada SAGE, desenvolvida pela Universidade Técnica Nacional de Atenas. O SAGE facilita o enriquecimento semântico dos metadados do património cultural, oferecendo um conjunto de anotadores estabelecidos (modelos de enriquecimento) configurados para servir as necessidades do setor. A plataforma suporta todo o fluxo de trabalho de enriquecimento, desde a importação de dados e a produção automática de anotações semânticas até à validação humana e publicação de dados no formato esperado pela Europeana. A ferramenta foi utilizada com êxito para enriquecer os metadados do património cultural em várias aplicações (nomeadamente através dos projetos CRAFTED e Europeana XX). No contexto do AI4Culture, foi alargado para ocultar a complexidade técnica dos algoritmos de enriquecimento semântico automático e apoiar a interoperabilidade sem descontinuidades com o espaço comum europeu de dados para o património cultural. Para o efeito, a plataforma apoia formatos relevantes para os metadados do património cultural, como o EDM (Modelo de Dados da Europeana), e facilita a importação direta de metadados de fontes relacionadas com o património cultural, como a Europeana.eu ou a ferramenta MINT utilizada por vários agregadores da Europeana.

Por enquanto, as pessoas interessadas podem experimentar o SAGE aqui. O código-fonte está disponível no GitHub (frontend, backend). Podes aprender a usar o SAGE seguindo uma série de tutoriais em vídeo e lendo as instruções da Wiki

Mais informações

Em setembro de 2024, o projeto AI4Culture lançará uma plataforma onde serão disponibilizadas em linha ferramentas abertas, como a ferramenta SAGE para o enriquecimento semântico acima apresentada, juntamente com documentação e materiais de formação conexos. Fique de olho na página do projeto no Europeana Pro para obter mais detalhes e fique ligado na conta do projeto LinkedIn e X!