O desafio dos metadados multilingues
A Europeana trabalha com coleções descritas em pelo menos 37 línguas e procura combiná-las com termos de pesquisa que possam ocorrer em qualquer língua. Todos os elementos das coleções no sítio Web da Europeana são descritos num conjunto de campos de metadados que transmitem informações essenciais sobre os mesmos, como o seu título e o seu criador. Esta informação ajuda as pessoas a descobrir e compreender os objetos em que estão interessadas. Atualmente, a maioria dos registos contém termos numa única língua, a língua dos fornecedores de dados. Esta falta de metadados multilingues prejudica o objetivo da Europeana de oferecer um amplo acesso à sua coleção em todas as línguas.
Abordar a questão do multilinguismo a este respeito é um esforço bastante difícil. Para começar, os metadados não são uma linguagem natural com frases completas e gramática previsível; é frequentemente apresentado em frases curtas ou mesmo palavras simples, o que significa que o contexto necessário para uma tradução precisa é difícil de encontrar. Além disso, os termos utilizados podem ser muito específicos; podem parecer um termo geral, mas têm um significado diferente quando utilizados num contexto de património cultural.
Por exemplo, o termo religioso grego que reflete a Última Ceia pode ser incorretamente traduzido como Jantar Secreto. A repercussão desta tradução imprecisa - ou a ausência de uma tradução para o inglês - seria que artefactos gregos com um título ou descrição referindo-se ao tema específico não apareceriam entre os resultados quando alguém procura pinturas sobre a Última Ceia no site da Europeana.
Construir uma ponte entre a Europeana e as comunidades de serviços digitais eTranslation
Como está o projeto Europeana Tradutor a trabalhar com outras partes interessadas e ferramentas para enfrentar este desafio?
Desenvolvido pela Comissão Europeia, o eTranslation é uma ferramenta linguística criada utilizando as mais recentes tecnologias de IA e recebeu formação sobre as grandes quantidades de dados disponíveis a nível interno e recolhidos através de um esforço de recolha de recursos linguísticos à escala da UE. No repositório ELRC-SHARE utilizado pelo eTranslation DSI, o património cultural está sub-representado e, consequentemente, as soluções tecnológicas existentes estão menos bem equipadas para lidar com os aspetos específicos dos dados do património cultural.
Neste contexto, a criação de colaborações entre as partes interessadas das comunidades Europeana e eTranslation é fundamental para personalizar as ferramentas de tradução automática, para que possam servir as necessidades específicas do domínio do património cultural. A Europeana Tradutor procura reunir as comunidades eTranslation e Europeana para enfrentar os desafios enfrentados por ambos os setores. Melhorar o acesso multilingue ao património cultural digital exige uma série de funções e competências complementares, que são servidas pelos diversos parceiros da Europeana Tradutora (veraqui).
Experiências com tradução automática
Nos últimos meses, os parceiros do projeto trabalharam em conjunto para selecionar e segmentar adequadamente e limpar os registos de metadados do sítio Web da Europeana. Estes dados foram depois explorados pelo parceiro do projeto Pangeanic, que os utilizou para além de 12 milhões de segmentos textuais de tradução de recursos linguísticos genéricos existentes para melhorar a exatidão dos algoritmos de tradução automática aquando da tradução de metadados do património cultural.
A Pangeanic realizou uma série de experiências considerando diferentes combinações de dados de treino. Tal incluiu metadados bilingues da Europeana, dados sintéticos produzidos a partir de metadados numa língua e vocabulários multilingues relevantes para o domínio do património cultural. Foram igualmente consideradas fontes alternativas de dados, para além da Europeana, para línguas para as quais existem poucos ou nenhuns recursos com traduções para inglês. A avaliação automática destas experiências utilizando métricas estabelecidas permitiu aos parceiros decidir sobre a configuração para traduções automáticas da melhor qualidade e compará-las com os resultados alcançados por outras ferramentas de tradução, como o Google Translate e o eTranslate. Em geral, a avaliação demonstra melhorias nos resultados em comparação com os modelos genéricos para a maioria das línguas.
Os motores de tradução automática resultantes deste processo serão utilizados para traduzir metadados das 23 línguas oficiais da UE para inglês (a 24.a língua oficial). Estes motores de tradução serão utilizados para gerar traduções automáticas em inglês para, pelo menos, 25 milhões de registos de metadados na plataforma Europeana. As traduções serão indexadas e exibidas, melhorando a experiência multilingue do utilizador na plataforma Europeana. Revisitando a pessoa que procura artefactos inspirados no tema religioso da "Última Ceia", após a conclusão do Europeana Tradutor, poderá também aceder a pinturas da Grécia, Roménia e muitos outros países que atualmente não estão incluídos nos resultados da pesquisa.
Além disso, a Europeana Translate disponibilizará abertamente os recursos linguísticos selecionados e devidamente tratados que produziu através do repositório ELRC-SHARE ao abrigo de uma licença de reutilização gratuita (CC0). Tal permitirá à comunidade de tradução automática utilizar dados abertos para formar, adaptar e testar os seus serviços de tradução no domínio do património cultural.
Envolver os seres humanos no ciclo
Nos próximos meses, serão realizadas duas avaliações complementares das traduções automáticas produzidas pelas experiências por linguistas e profissionais do património cultural.
A Ferramenta de Avaliação de Tradução Automática será usada para avaliar a precisão e o desempenho de todos os 23 motores de tradução. Serão organizadas três campanhas de crowdsourcing para envolver profissionais do património cultural para ajudar a testar e avaliar a tradução automática (as línguas a avaliar a este respeito incluem o francês, o italiano e o neerlandês). As campanhas também envolverão o público e sensibilizarão a comunidade do património cultural para o poder dos serviços de tradução automática. A plataforma CrowdHeritage será utilizada para apresentar as traduções automáticas no contexto dos bens do património cultural a que se referem.
Os resultados destas avaliações fornecerão informações úteis e serão utilizados para determinar o limiar de qualidade aceitável para a publicação de traduções automáticas na Europeana e para utilização nas plataformas das próprias organizações responsáveis pelo património cultural.
Saiba mais e envolva-se
Para mais informações, pode ver um vídeo introdutório, um vídeo sobre os primeiros resultados do projeto, ou ler sobre a arquitetura da Europeana Tradutor neste documento apresentado na Associação Europeia de Tradução Automática 2022. Os profissionais do setor audiovisual, da moda e dos museus terão a oportunidade de contribuir para o projeto, ajudando a avaliar os resultados das nossas campanhas de nichos de mercado, que terão lugar no início de 2023. Fique de olho na página do evento Europeana Pro para saber mais.
