Disposições relativas à prospeção de textos e dados
Em 2019, a Diretiva Direitos de Autor no Mercado Único Digital permitiu a qualquer pessoa fazer cópias e extrair grandes quantidades de dados protegidos por direitos de autor aos quais tem acesso legal sem autorização do titular dos direitos, a fim de realizar atividades de prospeção de dados. Tal é possível, a menos que o titular dos direitos opte expressamente por não permitir que os dados protegidos por direitos de autor (através de meios de leitura ótica) sejam extraídos. Esta possibilidade de autoexclusão não se aplica à prospeção de dados pelo património cultural e por instituições de investigação para fins de investigação. Na altura, a prospeção de textos e dados não era nova noutras partes do mundo e a União Europeia sofria de uma desvantagem concorrencial por não dispor de clareza jurídica na sua jurisdição.
Estas disposições destinam-se a garantir que os direitos de autor não prejudiquem as oportunidades que a análise de grandes quantidades de dados proporciona aos sectores da investigação e do património cultural na União Europeia (melhorando substancialmente a análise e a visibilidade da informação) e à sociedade da informação em geral.
Bloquear a prospeção de dados a partir de dados do património cultural
Em 2019, as instituições responsáveis pelo património cultural, que defendem o acesso democrático à informação, manifestaram-se a favor das exceções relativas à prospeção de textos e dados. Por conseguinte, foi inesperado que estas mesmas instituições considerassem a possibilidade de utilizar a opção de autoexclusão para bloquear a extração de dados do património cultural protegidos por direitos de autor.
A exclusão deste tipo de tratamento suscitou debates recentes no setor do património cultural. A Biblioteca Nacional dos Países Baixos, por exemplo, aditou uma redação aos seus termos e condições que proíbe todas as IA generativas comerciais de minar as obras protegidas por direitos de autor da biblioteca. Através de métodos legíveis por máquina, proíbe explicitamente o ChatGPT de recolher as suas coleções.
Em certos casos, a razão para a aplicação de uma autoexclusão parece ser o facto de os titulares de direitos de autor solicitarem essa autoexclusão como condição para que os dados sejam partilhados através do sítio Web de uma organização responsável pelo património cultural. Por vezes, tal é feito pelo titular dos direitos individuais ou por uma organização de gestão coletiva, como a Pictoright, nos Países Baixos, e a Sacem, em França. Mas, por vezes, a vontade parece provir da própria instituição responsável pelo património cultural, que pretende assegurar que os criadores são respeitados através de uma utilização transparente (atribuída) e baseada em autorizações das suas criações.
Entre os principais argumentos, alguns alertam para a necessidade de bloquear a extração de dados para impedir que determinadas empresas de «grande tecnologia» que trabalham com IA generativa produzam dados de extração. De facto, algumas grandes empresas com fins lucrativos analisam grandes quantidades de dados protegidos por direitos de autor sem muita transparência. Foram criticados por se alimentarem dos «comuns» (conteúdos disponíveis sem restrições de direitos de autor) sem contribuírem para eles, reforçando simultaneamente a sua vantagem competitiva.
Para além do que é juridicamente possível: o que deve o setor do património representar?
Na maioria dos casos, as instituições responsáveis pelo património cultural darão acesso a materiais que não estão protegidos por direitos de autor ou que estão protegidos e para os quais os titulares dos direitos autorizaram a publicação em linha, mas para os quais a instituição responsável pelo património cultural não detém os direitos de autor. Nesses casos, as instituições responsáveis pelo património cultural não têm o direito de tomar a decisão de aplicar uma cláusula de autoexclusão da prospeção de dados. Só podem fazê-lo se existirem direitos de autor e detiverem os direitos de autor.
Mas mesmo que o façam, vale a pena perguntar se o opt-out apoia os seus objetivos. De certa forma, bloquear a possibilidade de utilizar dados do património cultural parece contrariar a missão das instituições responsáveis pelo património cultural financiadas por fundos públicos. Não está a contribuir com informações qualitativas fiáveis e a combater a desinformação e os preconceitos (em algoritmos) mais em consonância com os seus objetivos?
Quando se trata de corrigir a má prática de alguns grandes intervenientes no mundo da IA, será que a exclusão dos dados do património cultural os enfraqueceria? As grandes empresas de tecnologia podem assumir riscos legais, pagar uma multa ou pagar o preço por minerar legalmente os dados. A exclusão dos dados do património cultural não os impedirá de os utilizar, mas é suscetível de ter um impacto negativo nas PME, nos jornalistas, nos profissionais do património cultural e nos próprios investigadores que utilizam os dados, bem como nas ferramentas, tanto para fins de investigação como para fins mais gerais. Corre o risco de enfraquecer aqueles que mais precisam dos bens comuns. As fronteiras entre o comércio e a investigação são cada vez mais vagas. Onde desenhamos a linha?
Devem as instituições responsáveis pelo património cultural criar condições de concorrência equitativas e salvaguardar o acesso aberto a conteúdos culturais por parte de todos, incluindo máquinas? Se não existirem soluções de autoexclusão disponíveis ou utilizadas que sejam adequadas para serem aplicadas item a item, existe um risco claro de que a aplicação de uma autoexclusão legível por máquina transborde no material do domínio público disponibilizado em linha.
O caso das obras fora do comércio
Com a diretiva relativa aos direitos de autor acima referida, foi adotado o sistema de obras fora do comércio: uma nova solução jurídica através da qual as instituições responsáveis pelo património cultural podem partilhar em linha materiais nas suas coleções que não estão (ou deixaram de estar) em circulação comercial, apesar de estarem sujeitos à proteção dos direitos de autor, sem autorização do titular dos direitos de autor. Este novo sistema elimina o encargo (impossível) de eliminar os direitos de autor de grandes coleções.
Tal exige geralmente a obtenção de uma licença de uma organização de gestão coletiva, que seja representativa dos tipos de materiais em questão. Através da diretiva, as organizações têm o direito de conceder licenças coletivas «alargadas»: podem autorizar as instituições responsáveis pelo património cultural a utilizar materiais que façam parte do repertório da organização de gestão coletiva, mas também materiais que não o façam.
Algumas organizações de gestão coletiva estão a incluir a obrigação de recusar a extração destas obras fora do comércio, quando partilhadas em linha pela instituição responsável pelo património cultural. No contexto da concessão de licenças coletivas «alargadas», tal é problemático tanto do ponto de vista prático como jurídico. Na prática, limita as possibilidades de reutilização do material e representa um encargo adicional para a instituição responsável pelo património cultural. Do ponto de vista jurídico, porque é discutível se uma organização de gestão coletiva titular de uma licença de gestão coletiva «alargada» tem o direito de exercer uma opção de autoexclusão em matéria de prospeção de dados.
Próximas etapas
Nós, na Comunidade de Direitos Autorais, continuaremos a acompanhar de perto os desenvolvimentos nesta área. Fique ligado juntando-se à nossa Comunidade através da Associação da Rede Europeana e seguindo-nos nas redes sociais. Se desejar partilhar connosco quaisquer comentários sobre este tema, contacte [email protected].
Para mais informações sobre a prospeção de textos e dados, consulte copyrightuser.org e o portal de transposição da Diretiva CDSM da Communia.
