Permitir a tradução automática para enriquecimento
Uma ferramenta API desenvolvida pelo parceiro de projeto Pangeanic deteta a linguagem utilizada nos metadados Europeana e permite a sua tradução automática. Denominado Serviço de Tradução Automática de Metadados do Património (HM ATS), esta ferramenta faz parte de um conjunto de ferramentas de enriquecimento semântico desenvolvidas pela Europeana XX.
Para criar a ferramenta, a Pangeanic construiu 10 motores de tradução automática neural (traduzindo o italiano, o alemão, o checo, o grego, o francês, o sueco, o catalão, o neerlandês, o polaco e o espanhol para o inglês). Utilizaram dados de formação dos repositórios da Pangeanic e dados abertos na Internet. A Pangeanic também contratou tradutores para traduzir uma quantidade limitada de registos dos repositórios da Europeana, a fim de dispor de dados de formação específicos da Europeana para várias línguas.
A ferramenta foi utilizada para traduzir e enriquecer aproximadamente dois milhões e meio de registros durante o projeto. A Pangeanic estendeu e aperfeiçoou com sucesso a ferramenta para se adequar aos requisitos de desempenho de um volume tão grande de dados. Use o código da API sozinho.
Para avaliar e validar a qualidade da tradução automática, os parceiros criaram igualmente um sistema de validação da tradução (com base no LabelStudio). Os profissionais do património cultural e os falantes nativos de línguas relevantes validaram mais de 2 700 traduções utilizando este sistema. O feedback foi esmagadoramente positivo, confirmando a elevada qualidade da tradução automática neural e o seu bom funcionamento no domínio do património cultural digital.
As traduções validadas serão utilizadas para melhorar ainda mais os motores de tradução automática no projeto Europeana Translate, no qual a Pangeanic também está envolvida. O objetivo deste projeto é ajudar a Europeana a progredir na execução da sua estratégia multilingue, fornecendo traduções de metadados que permitirão uma melhor pesquisa e visualização das suas coleções nas suas línguas maternas e nas línguas dos utilizadores.
Enriquecimento para conjuntos de dados
A SAGE, uma ferramenta baseada na Internet para produzir, enriquecer, publicar, aceder e gerir conjuntos de dados RDF, foi desenvolvida pela Universidade Técnica Nacional de Atenas (NTUA) para a Europeana XX. RDF (resource description framework) é uma linguagem utilizada para representar o conteúdo de um conjunto de dados. Os dados FTR podem ser diretamente importados ou gerados a partir de diversas fontes e formatos de dados, organizados em conjuntos de dados e enriquecidos com anotadores. Estes enriquecimentos podem então ser validados manualmente. Todos os conjuntos de dados, incluindo quaisquer anotações, podem ser publicados em lojas RDF, indexados e acessados através de chamadas de API.
Graças ao SAGE, partes selecionadas de conjuntos de dados publicados também podem agora ser anotadas e enriquecidas através de serviços API externos, como ferramentas que ligam dados a Wikidata, DBPedia, Geonames e outros recursos relevantes, ou ferramentas que detetam ocorrências de termos de vocabulário nos dados. Uma vez que os enriquecimentos são feitos no SAGE, eles são validados manualmente através de um sistema que permite validações em massa usando agrupamento de texto e classificação de frequência de texto, atribuição de tarefas de validação a vários usuários e monitoramento próximo do processo de validação geral.
A ferramenta SAGE também foi utilizada no projeto Pagode para enriquecer automaticamente mais de 20.000 registos. Também será usado no projeto CRAFTED para analisar campos de metadados e texto extraído de ferramentas de análise de conteúdo de Inteligência Artificial, a fim de identificar e remover a incerteza de entidades nomeadas. O objetivo final é enriquecer mais de 100 000 registos e permitir a validação e avaliação pelo utilizador de entidades extraídas automaticamente.
Mais informações
Pode explorar todas as ferramentas desenvolvidas no âmbito do projeto Europeana XX (e outros projetos de serviços genéricos) na página Serviços e Ferramentas da Europeana.
