Livros, manuscritos, jornais históricos e muitos outros tipos de objetos de património cultural textual (CHOs) fornecem informações valiosas para uma ampla gama de tópicos de investigação. A missão da CLARIN é disponibilizar recursos linguísticos digitais a académicos, investigadores, estudantes e cidadãos-cientistas de todas as disciplinas. Enquanto parceiros na Infraestrutura de Serviços Digitais da Europeana, a Europeana e a CLARIN trabalharam em conjunto para incorporar material do património cultural na infraestrutura da CLARIN. Com base na experiência adquirida durante o projeto-piloto, e com base na melhoria dos serviços de divulgação e da qualidade dos metadados oferecidos pela Europeana, a CLARIN realizou recentemente uma nova avaliação dos conjuntos de dados disponíveis e efetuou uma nova seleção. O processo de seleção centrou-se no conteúdo de texto completo, como livros digitalizados, publicações periódicas e jornais com conteúdo textual obtido através do reconhecimento ótico de carateres (OCR). Outros tipos de objetos que também foram considerados são varreduras de alta resolução de manuscritos e áudio de fala. Para serem elegíveis, os recursos tinham de estar diretamente disponíveis na sua forma bruta e não ter restrições legais de reutilização. Atualmente, 22 coleções que contêm cerca de 135 000 bens do património cultural foram identificadas como satisfazendo estes critérios.
Ferramentas conectadas para processamento sem descontinuidades
Depois de finalizar a seleção, a CLARIN criou um mecanismo para a recuperação regular de metadados para as coleções selecionadas. Uma vez recuperados, os metadados são ingeridos no catálogo de recursos linguísticos do CLARIN, o Observatório Virtual da Linguagem (VLO).
Imediatamente, podemos ver que os recursos recém-introduzidos fornecem uma contribuição substancial para o número de resultados de pesquisa relevantes para determinadas consultas. Por exemplo, à procura de recursos de texto eslovenos, quase todos os mais de 73 000 resultados provêm de um fornecedor de dados Europeana - neste caso, a Biblioteca Digital da Eslovénia. Do mesmo modo, a disponibilidade de recursos de texto húngaros e polacos foi consideravelmente reforçada.
Além de oferecer aos investigadores uma forma familiar de descobrir objetos do património cultural relevantes para a sua investigação, o VLO também fornece um caminho direto para a análise dos recursos descobertos. Por exemplo, este panfleto do século XVIII, oferecido como um PDF com conteúdo de texto integral incorporado pela Comissão de Manuscritos Irlandesa e pela Biblioteca Oireachtas, pode agora ser encontrado através do VLO.
Ao ir para a vista Recursos e selecionar o Processo com a opção Painel de Comutadores de Recursos Linguísticos, verá uma lista de ferramentas invocáveis - nove no momento da escrita. Entre as opções estão a análise gramatical através da cadeia Weblicht Dependency Parsing e a suíte Voyant para análise de texto assistida por computador. Observe que, embora o LRS possa ser invocado para qualquer recurso, ele não tem ferramentas vinculadas para todos os tipos de idioma ou recurso, e que uma limitação de tamanho de arquivo aplica-se na versão atual. Uma próxima versão verá esta limitação levantada.

Conteúdos recém-integrados continuarão a realizar o potencial
Agora que a integração da qualidade da produção de uma seleção considerável de recursos de boa qualidade e bem descritos foi alcançada, podemos ver os contornos do potencial dessa integração em maior escala. Os atuais esforços para disponibilizar conteúdos em texto integral para grandes coleções de jornais digitalizados no âmbito do projeto «Europeana Newspapers» tornam provável que este potencial continue a ser concretizado a uma escala substancial num futuro próximo. Além disso, a CLARIN procederá à avaliação de coleções adicionais para além dos «frutos baixos» e procurará continuar a expandir o volume de recursos do património cultural na ponta dos dedos dos investigadores.
Procure, encontre e processe recursos do património cultural em texto integral com o VLO agora!
Se tiver curiosidade sobre as coleções disponíveis no Observatório Virtual das Línguas e quiser saber que ferramentas estão disponíveis para as processar, basta ir a vlo.clarin.eu, introduzir alguns termos de pesquisa e começar a explorar.
