Lançada em 2016, a plataforma Transcribathon foi desenvolvida por dois projetos de serviços genéricos: Enrich Europeana (2018-2020) e Enrich Europeana Plus (2021-2023). A plataforma permite aos voluntários transcrever textos históricos manuscritos em diferentes línguas e a partir de diferentes períodos históricos, utilizando nada mais do que o seu computador. Desde o início dos projetos, mais de 372 000 documentos foram transcritos por voluntários e transformados em ficheiros de texto digitais, ajudando a expandir e enriquecer as vastas coleções de bens do património cultural digital da Europeana.
Em 2021, o projeto Enrich Europeana Plus começou a atualizar a plataforma Transcribathon com tecnologia avançada de reconhecimento de escrita manual, que utiliza inteligência artificial para fornecer transcrições automáticas que podem ser verificadas por voluntários. Um dos maiores fornecedores desta tecnologia é a READ-COOP, uma sociedade cooperativa europeia que gere o popular software Transkribus. A Enrich Europeana Plus passou vários meses a trabalhar com a READ-COOP e a incorporar a sua tecnologia na plataforma Transcribathon.
Ligação do Transcribathon à API «metagrapho»
Desenvolvido no âmbito de um projeto financiado pela UE e liderado pela Universidade de Innsbruck, o software Transkribus permite que os documentos manuscritos históricos sejam automaticamente transcritos em grande escala. A tecnologia utiliza a IA para «aprender» a ler tipos específicos de caligrafia e, em seguida, aplica este conhecimento para criar transcrições automáticas de textos. Isto acelera dramaticamente o processo de transcrição: o transcritor já não precisa de passar horas a escrever uma transcrição a partir do zero, uma vez que pode rever a transcrição automática em vez disso.
A tecnologia de reconhecimento de escrita manual como a Transkribus é particularmente ideal para projetos de ciência cidadã. Quanto mais fácil for a transcrição desses documentos, mais documentos os voluntários poderão tratar num determinado prazo e mais rapidamente o sítio da Europeana poderá ser enriquecido. A equipa da Transcribathon estava, portanto, interessada em implementar esta tecnologia na plataforma.
Para o efeito, decidiram utilizar a API do metagrafo READ-COOP para permitir o acesso da Transcribathon à tecnologia Transkribus. Uma API é um software que funciona como um mensageiro entre duas plataformas diferentes. Alguém pede informações em uma plataforma, e a plataforma envia este pedido para a API de outra plataforma. Uma vez que esta segunda plataforma tem uma resposta ao pedido, a API traz de volta para a primeira plataforma e a pessoa recebe as informações de que precisa.
A plataforma Transcribathon usa a API do metagrapho exatamente desta maneira. Quando um voluntário quer obter uma transcrição automática de um texto, pede-o na plataforma Transcribathon. Transcribathon, em seguida, envia este pedido para a API metagrapho, que usa a tecnologia de reconhecimento de caligrafia para processar a imagem e gerar uma transcrição automática. Finalmente, uma vez concluído o processamento, a plataforma Transcribathon pode acessar a transcrição e mostrá-la ao voluntário, novamente através da API do metagrafo.
A API do metagrafo não só fornece a transcrição, mas também as coordenadas para cada linha ou até mesmo palavra encontrada na imagem - algo que não era possível na versão antiga do Transcribathon. Este recurso torna possível usar as transcrições para outras aplicações, como destacar palavras-chave correspondentes no texto durante uma pesquisa de texto completo.
Um editor de transcrição melhorado
Atualizar a tecnologia por trás do Transcribathon significava que o editor de transcrição - a parte que um voluntário usa para inserir suas transcrições - não era mais capaz de lidar com o formato de dados mais rico que recebia da API do metagrafo. Portanto, a READ-COOP construiu um editor de transcrição personalizado para o Transcribathon. Isto permite que as pessoas cliquem numa linha da transcrição e vejam a linha correspondente na imagem do texto.
Para acelerar o processo, o READ-COOP pegou no editor existente no software Transkribus, modificou-o para se adequar aos requisitos do Transcribathon e transformou-o em um widget. O widget foi então simplesmente inserido na plataforma Transcribathon, possibilitando que os usuários acessassem e editassem as transcrições geradas pela API do metagrafo. Usar o editor Transkribus existente e simplesmente modificá-lo também poupou tempo e custos de desenvolvimento preciosos.
O poder da colaboração
Estas atualizações tecnológicas elevam a Transcribathon a um novo patamar. Em vez de criar transcrições demoradas a partir do zero, os voluntários agora podem simplesmente corrigir transcrições geradas automaticamente no novo editor de transcrição, ajudando-os a processar muitos mais documentos durante uma execução.
A READ-COOP está atualmente a treinar os modelos de IA de reconhecimento de texto manuscrito com base em material já transcrito, ou para material que em breve será transcrito, em Transcribathon. Quanto melhor o modelo de IA for adaptado ao material em foco, mais precisas serão as transcrições automáticas.
Por exemplo, um próximo Transcribathon Run contará com varreduras de cartões de ração dos Arquivos Estaduais em Zagreb, que foram usados durante a Segunda Guerra Mundial (a partir de 1941 1945) como uma forma de racionamento de alimentos e outros recursos. Os cartões contêm indicadores demográficos e socioeconómicos para indivíduos e/ou famílias, como títulos, empregos e, portanto, são uma rica fonte de material de pesquisa.
Como preparação para esta corrida, a READ-COOP realizou um webinar com funcionários do arquivo, para mostrar-lhes como preparar dados de treinamento. Estes dados de treino serão então utilizados para treinar um modelo de escrita manual ou «ensinar» o motor a ler documentos deste tipo, para que possa fornecer transcrições mais precisas durante a corrida. Tal, combinado com as competências de revisão dos voluntários, deverá permitir que o arquivo de Zagrebe digitalize um maior número de documentos do que nunca.
Mais informações
Pode consultar o webinário sobre como preparar os dados de formação neste vídeo. Encontrará a integração do editor de reconhecimento automático de texto manuscrito na plataforma Transcribathon e poderá consultar os primeiros resultados dos artigos de Dublin.
Este artigo foi escrito por Fiona Park, Content Manager READ-COOP SCE, e Philip Kahle, Software Developer, READ COOP.
