O EU Datathon é um concurso anual que proporciona «uma oportunidade para entusiastas de dados abertos e criadores de aplicações de todo o mundo demonstrarem o potencial dos dados abertos, obterem visibilidade internacional pelas suas ideias inovadoras e competirem pela sua quota-parte do fundo total de prémios de 200 000 EUR e do Prémio do Público». São convidados a utilizar o data.europa.eu, o portal oficial de dados europeus, gerido pelo Serviço das Publicações da União Europeia.
Com o conjunto de dados Europeana.eu publicado em data.europa.eu no início deste ano, agregando metadados das cerca de 4 000 instituições responsáveis pelo património cultural que fornecem conteúdos à Europeana, as propostas e aplicações concebidas para o concurso poderão também beneficiar dele para as suas candidaturas. Enquanto parceiro oficial do concurso, a Europeana convidou investigadores, professores universitários e estudantes das Ciências Sociais e Humanas e da Ciência da Computação e da Informação a participarem na EU Datathon.
Após duas rondas de pré-seleções de 156 candidaturas de 38 países, uma equipa que está a desenvolver uma aplicação baseada no conjunto de dados Europeana.eu foi uma das 12 finalistas e recebeu um prémio de 7000 euros no âmbito do Desafio n.o 4: «Uma Europa Preparada para a Era Digital», na cerimónia de entrega dos prémios que teve lugar em Bruxelas, em 20 de outubro de 2022. A equipa é composta pela Professora Johanna Monti; investigadora, Maria Pia di Buono; e dois doutorandos, Gennaro Nolano e Giulia Speranza. Johanna Monti fala-nos da experiência.
Pode falar-nos sobre a aplicação que desenvolveu e o processo de criação da mesma?
Desenvolvemos o Maggie, um chatbot em tempo real que funciona como assistente virtual para ajudar as pessoas a aceder e descobrir conteúdos culturais europeus. As pessoas podem interagir com Maggie através de perguntas sobre a língua natural e fazer perguntas sobre o património cultural europeu.
A principal ideia por trás da Maggie é explorar as metodologias de Inteligência Artificial (IA) e Processamento de Linguagem Natural (PNL) para desenvolver uma aplicação centrada no utilizador que facilite o acesso e a descoberta de conteúdos culturais multilingues. O público-alvo da Maggie é muito diversificado; a aplicação adapta os conteúdos aos conhecimentos e interesses dos utilizadores para satisfazer diferentes necessidades de informação, desde estudantes a peritos.
A Maggie é o resultado de mais de uma década de atividades de investigação iniciadas em 2012 com as nossas primeiras experiências de recuperação de informação translinguística sobre o património cultural. Depois disso, vários marcos marcaram o nosso caminho para Maggie, incluindo a criação do grupo UNIOR NLP Research da Universidade de Nápoles L'Orientale em 2016, e vários projetos de 2019 a 2021, incluindo o Projeto SMACH (Acesso Multilingue Semântico ao Património Cultural), o projeto ArchaeoTerm que oferece um recurso de termos arqueológicos disponíveis no âmbito do projeto YourTerm CULT, e o projeto NEAT (Entidades Nomeadas em Textos Arqueológicos).
Por que razão decidiu utilizar o conjunto de dados Europeana.eu?
O nosso grupo de investigação sempre esteve empenhado em tornar os conteúdos culturais facilmente acessíveis a todos, através do desenvolvimento de sistemas e aplicações para o património cultural. Neste sentido, já explorámos os dados abertos europeus (sob a forma de dados do sítio Web Europeana) em várias obras, todas destinadas a melhorar o atual estado da arte nas tarefas de processamento de línguas naturais para um melhor acesso aos conteúdos do património cultural.
Em todos estes casos, o núcleo dos dados que utilizámos foi representado por dados abertos raspados da API de pesquisa da Europeana, o que facilita o acesso e a reutilização de dados agregados, assegurando simultaneamente a elevada qualidade dos dados e o seu multilinguismo. Embora em experiências anteriores grande parte da informação descrita pelo Modelo de Dados Europeana (tais como dados sobre localização, autores e temas) não tenha sido utilizada, para desenvolver Maggie, exploramos plenamente a rica fonte de informação oferecida pela Europeana, uma vez que pretendíamos desenvolver uma tarefa mais específica de Processamento da Linguagem Natural.

A EU Datathon incentiva a utilização de conjuntos de dados abertos. Porque é que a abertura de dados é importante para a sua investigação e aplicação?
Os dados abertos garantem a reprodutibilidade e a transparência na investigação. A disponibilidade desses dados constitui uma forma de incentivar a partilha de conhecimentos e a cooperação nas comunidades científicas. A maior parte dos nossos esforços de investigação tira partido de dados abertos provenientes de várias fontes. É o caso da nossa app Maggie. Sem dados abertos da Europeana e do data.europa.eu, não poderíamos ter desenvolvido a Maggie. Extraímos informações sobre cada obra de arte disponibilizada através da Europeana, como o seu autor, data de criação, etc., e agregamos as informações sobre a sua geolocalização a partir do GeoDataset of data.europa.eu.
Por que razão decidiu participar no concurso EU Datathon?
Foi um grande desafio para nós, uma vez que tentámos reunir todos os nossos esforços anteriores numa única aplicação que pudesse ajudar as pessoas a aceder facilmente aos conteúdos culturais europeus na era digital de hoje. No entanto, representou também uma oportunidade para sair da pura investigação académica e empenhar-se numa prova de conceito que vai além da fase de protótipo, rumo a algo que possa efetivamente ser utilizado numa situação do mundo real; tudo isto recorrendo a metodologias, recursos e ferramentas de ponta no domínio do processamento da linguagem natural e da inteligência artificial.
Que conselho daria a outros que entrassem numa competição como esta?
A participação em concursos que promovem a utilização de dados abertos é uma forma de apoiar a implementação, a divulgação e a adoção desses dados. Também contribui para a melhoria e manutenção de conjuntos de dados que, devido à quantidade de dados e fontes, são difíceis de gerenciar, limpar e testar. Os resultados destes tipos de concursos têm um impacto real na sociedade, diretamente relacionado com a possibilidade de melhorar a qualidade de vida dos cidadãos, tornando a informação e o conhecimento sobre a sociedade em que vivem acessíveis e prontamente disponíveis. O nosso conselho para os investigadores é sair da sua zona de conforto, e combinar o rigor da investigação com a criatividade do processo de design, pensando no impacto benéfico na sociedade como o objetivo final.
