Explorar novos recursos no Observatório Virtual das Línguas da CLARIN

Publicado 15 de outubro de 2020 por

Twan Goosen (CLARIN ERIC)

Observatório Virtual da Linguagem

O CLARIN é uma infraestrutura de investigação que visa apoiar os investigadores no domínio das ciências humanas e sociais, tornando acessíveis os recursos e ferramentas linguísticos digitais de toda a Europa e não só através de um ambiente em linha de início de sessão único. Enquanto parceiros na Infraestrutura de Serviços Digitais da Europeana, a Europeana e a CLARIN estão a trabalhar em conjunto para incorporar conteúdos do património cultural na infraestrutura da CLARIN. Desde uma integração piloto inicial em 2017, a CLARIN tem atualizado e alargado regularmente a seleção de bens do património cultural que inclui no seu Observatório Virtual da Linguagem (VLO). Este serviço de pesquisa e descoberta online centra-se nas necessidades dos estudiosos que procuram recursos linguísticos e está integrado na infraestrutura CLARIN mais ampla.

Novos recursos para os investigadores

Uma parte fundamental desta integração é melhorar o acesso dos utilizadores às possibilidades de análise e tratamento em linha de qualquer recurso encontrado através do VLO. Estas funcionalidades estão disponíveis para uma grande variedade de recursos do património cultural «colhidos» através da Europeana, desde manuscritos da era renascentista e jornais digitalizados a livros infantis históricos e gravações de história oral.

Em abril de 2019, escrevemos sobre a primeira integração de recursos. Mostrámos um exemplo poderoso de como as pessoas podem processar um recurso linguístico diretamente a partir do seu navegador com alguns cliques depois de o descobrirem. Nessa altura, cerca de 135 000 registos tinham sido obtidos junto da Europeana e incluídos no VLO. Desde então, realizámos duas iterações adicionais de seleção e integração, resultando em mais de 275 000 registos da Europeana, que é mais do que qualquer outro fornecedor individual de registos de metadados atualmente no VLO. A seguir, apresentamos dois exemplos adicionais de recursos que estão atualmente disponíveis e demonstramos como podem ser processados posteriormente.

«O kimmeryjskich pomnikach w Krymie»

'O kimmeryjskich pomnikach w Krymie', é um livro polonês de 1882, fornecido pela Federacja Bibliotek Cyfrowych como um PDF, com seu conteúdo de texto completo disponível como resultado do OCR (reconhecimento óptico de caracteres). Como mostra a animação abaixo, alguém que utiliza o VLO pode explorar as opções de processamento selecionando uma ligação para um ficheiro individual e processando-o com o quadro de distribuição de recursos linguísticos. Para este registo, está disponível uma variedade de interessantes ferramentas de processamento de linguagem natural, a maioria das quais fornecidas pelo consórcio polaco CLARIN-PL.

Os linguistas computacionais podem querer ver o resultado dos vários tipos de análises linguísticas disponíveis, enquanto os estudiosos de humanidades podem achar interessante explorar a saída do extrator de palavras-chave, que fornece uma lista classificada de tópicos automaticamente detectados como relevantes para o texto. A ferramenta que oferece este tipo de análise para o polaco é o ReSpa. Pode ser iniciado diretamente a partir do quadro de distribuição e, ao fazê-lo, os investigadores podem rapidamente obter uma compreensão do conteúdo de um trabalho sem sequer abri-lo! Tal pode também ser útil para quem não lê polaco, uma vez que a lista de tópicos pode ser facilmente traduzida utilizando uma ferramenta de tradução de texto genérica, como a Google Translate. Para este exemplo, podemos descobrir em poucos minutos que, com base no conteúdo do livro, seu tema principal são os monumentos.

«Een theepartijtje van Mevrouw Poes: eene vertelling uit Katsland»

O nosso segundo exemplo é um livro infantil digitalizado do século XIX fornecido pela Biblioteca Nacional dos Países Baixos: «Eentheepartijtje van Mevrouw Poes: eene vertelling uit Katsland'(em inglês). Um link direto para um PDF está disponível para este recurso. Além das varreduras das ricas ilustrações e da história, também codifica todo o conteúdo do livro como texto legível por máquina.

Imagem

Ao utilizar o quadro de distribuição de recursos linguísticos, o utilizador pode descobrir que a ferramenta de leitura à distância Voyant é uma opção de processamento disponível. Uma vez que o recurso é carregado no Voyant, o texto é apresentado ao lado de várias métricas e um conjunto de ferramentas que permitem ao estudioso realizar análises quantitativas dos termos dentro do texto, como no exemplo abaixo.

Imagem

Este corpus tem 1 documento com 2 836 palavras no total e 1 010 formas de palavras únicas. Criado há 3 segundos. Densidade do vocabulário: 0.356. Média de palavras por frase: 32.2. Palavras mais frequentes no corpus: mevrouw (49); vagem (38); mademoiselle (18); theepartijtje (17); monsieur (14) (em inglês).

Mais informações

Algumas outras coleções interessantes adicionadas desde o nosso último relatório que agora pode explorar através do VLO incluem:

Jornais e publicações periódicas digitalizados da Biblioteca Digital da Eslovénia, Federacja Bibliotek Cyfrowych (Polónia) e Biblioteca Pública de Varna (Bulgária)
Livros de viagem da Biblioteca Digital da Eslovénia
Manuscritos da época renascentista da Opera del Vocabolario Italiano do Conselho Nacional de Investigação
Registos de história oral do Conselho do Condado de Monaghan e da University College Cork (Irlanda)

Se estiver curioso sobre estas e muitas outras coleções disponíveis no Observatório Virtual das Línguas e quiser explorar as ferramentas disponíveis para as analisar e processar, visite vlo.clarin.eu, introduza alguns termos de pesquisa e comece a explorar!