Les dispositions relatives à la fouille de textes et de données
En 2019, la directive sur le droit d’auteur dans le marché unique numérique a permis à toute personne de faire des copies et d’extraire de grandes quantités de données protégées par le droit d’auteur auxquelles elle a légalement accès sans l’autorisation du titulaire des droits, afin de mener des activités d’exploration de données. Cela est possible à moins que le titulaire des droits ne choisisse expressément de ne pas exploiter les données protégées par le droit d’auteur (par des moyens lisibles par machine). Cette possibilité d'opt-out ne s'applique pas à l'exploration de données par le patrimoine culturel et les institutions de recherche, à des fins de recherche. À l'époque, l'exploration de textes et de données n'était pas nouvelle dans d'autres parties du monde, et l'Union européenne souffrait d'un désavantage concurrentiel en n'ayant pas de clarté juridique dans sa juridiction.
Ces dispositions visent à garantir que le droit d'auteur ne fasse pas obstacle aux possibilités que l'analyse de grandes quantités de données offre aux secteurs de la recherche et du patrimoine culturel dans l'Union européenne (en améliorant considérablement l'analyse et la découvrabilité de l'information) et à la société de l'information dans son ensemble.
Bloquer l'exploration de données à partir des données du patrimoine culturel
En 2019, les institutions du patrimoine culturel, qui plaident en faveur d’un accès démocratique à l’information, se sont prononcées en faveur des exceptions à la fouille de textes et de données. Il était donc inattendu que ces mêmes institutions envisagent de recourir à la possibilité d'opt-out pour bloquer l'extraction de données du patrimoine culturel protégées par le droit d'auteur.
L'exclusion de ce type de traitement a suscité de récentes discussions dans le secteur du patrimoine culturel. La Bibliothèque nationale des Pays-Bas, par exemple, a ajouté un libellé à ses conditions générales qui interdit à toutes les IA génératives commerciales d’exploiter les œuvres protégées par le droit d’auteur de la bibliothèque. Par des méthodes lisibles par machine, il interdit explicitement à ChatGPT de récolter leurs collections.
Dans certains cas, la raison de la mise en œuvre d’une clause de non-participation semble être que les titulaires de droits d’auteur demandent cette clause de non-participation comme condition pour que les données soient partagées par l’intermédiaire du site web d’une organisation de gestion du patrimoine culturel. Cela est parfois fait par le titulaire individuel des droits, ou par une organisation de gestion collective, comme Pictoright aux Pays-Bas et la Sacem en France. Mais parfois, la volonté semble venir de l'institution du patrimoine culturel elle-même, voulant s'assurer que les créateurs sont respectés grâce à une utilisation transparente (attribuée) et fondée sur la permission de leurs créations.
Parmi les principaux arguments, certains mettent en garde contre la nécessité de bloquer l’extraction de données afin d’empêcher certaines entreprises de «grande technologie» travaillant avec l’IA générative d’extraire des données. En effet, certaines grandes entreprises à but lucratif analysent de grandes quantités de données protégées par le droit d'auteur sans beaucoup de transparence. Ils ont été critiqués pour s’être nourris des «communs» (contenu disponible sans restriction de droit d’auteur) sans y contribuer tout en renforçant leur avantage concurrentiel.
Au-delà de ce qui est légalement possible: Que devrait représenter le secteur du patrimoine?
Dans la plupart des cas, les institutions du patrimoine culturel donneront accès à des documents qui ne sont pas protégés par le droit d’auteur ou qui sont protégés et pour lesquels les titulaires de droits ont autorisé la mise en ligne, mais pour lesquels l’institution du patrimoine culturel ne détient pas le droit d’auteur. Dans de tels cas, les institutions du patrimoine culturel n'ont pas le droit de prendre la décision d'appliquer un opt-out pour l'exploration de données. Ils ne peuvent le faire que si le droit d'auteur existe, et ils détiennent le droit d'auteur.
Mais même s'ils le font, il vaut la peine de se demander si le retrait soutient leurs objectifs. D'une certaine manière, bloquer la possibilité d'utiliser les données du patrimoine culturel semble aller à l'encontre de la mission des institutions du patrimoine culturel financées par des fonds publics. La fourniture d’informations qualitatives fiables et la lutte contre la désinformation et les biais (dans les algorithmes) ne sont-elles pas plus conformes à leurs objectifs?
Lorsqu'il s'agit de corriger les mauvaises pratiques de certains grands acteurs du monde de l'IA, l'opt-out des données du patrimoine culturel les affaiblirait-il réellement? Les grandes entreprises technologiques peuvent prendre des risques juridiques, payer une amende ou payer le prix de l'extraction légale des données. L’exclusion des données relatives au patrimoine culturel ne les empêchera pas de les utiliser, mais risque plutôt d’avoir un impact négatif sur les PME, les journalistes, les professionnels du patrimoine culturel et les chercheurs eux-mêmes qui utilisent les données, ainsi que sur les outils à la fois pour la recherche mais aussi à des fins plus générales. Il risque d'affaiblir ceux qui ont le plus besoin des biens communs. Les frontières entre le commerce et la recherche sont de plus en plus floues. Où trace-t-on la ligne?
Les institutions du patrimoine culturel devraient-elles uniformiser les règles du jeu et garantir le libre accès aux contenus culturels pour tous, y compris par des machines? S'il n'existe pas de solutions d'opt-out disponibles ou utilisées pouvant être appliquées article par article, il existe un risque évident que l'application d'un opt-out lisible par machine déborde sur le matériel du domaine public mis à disposition en ligne.
Le cas des travaux indisponibles dans le commerce
Avec la directive sur le droit d'auteur mentionnée ci-dessus, le système des œuvres indisponibles dans le commerce a été adopté: une nouvelle solution juridique permettant aux institutions du patrimoine culturel de partager en ligne des documents de leurs collections qui ne sont pas (ou plus) en circulation commerciale, même s’ils sont protégés par le droit d’auteur, sans l’autorisation du titulaire du droit d’auteur. Ce nouveau système supprime la charge (impossible) d'effacer le droit d'auteur sur les grandes collections.
Cela nécessite généralement l'obtention d'une licence auprès d'un organisme de gestion collective, qui est représentatif des types de matériaux en question. En vertu de la directive, les organisations sont habilitées à accorder des licences collectives «prolongées»: ils peuvent autoriser les institutions de gestion du patrimoine culturel à utiliser du matériel qui fait partie du répertoire de l’organisation de gestion collective, mais aussi du matériel qui n’en fait pas partie.
Certaines organisations de gestion collective prévoient l’obligation de refuser que ces œuvres indisponibles dans le commerce soient exploitées lorsqu’elles sont partagées en ligne par l’institution du patrimoine culturel. Dans le contexte des licences collectives «étendues», cela pose un problème à la fois pratique et juridique. Pratiquement, car cela limite les possibilités de réutilisation du matériel et impose une charge supplémentaire à l'institution du patrimoine culturel. Juridiquement, parce qu’il est discutable de savoir si un organisme de gestion collective titulaire d’une licence de gestion collective « étendue » est le titulaire des droits habilité à exercer une clause de non-participation à l’exploration de données.
Prochaines étapes
Au sein de la communauté du droit d'auteur, nous continuerons de suivre de près l'évolution de la situation dans ce domaine. Restez à l’écoute en rejoignant notre communauté par l’intermédiaire de l’Association du réseau Europeana et en nous suivant sur les médias sociaux. Si vous souhaitez nous faire part de vos commentaires sur ce sujet, veuillez contacter [email protected].
Vous pouvez en savoir plus sur l’exploration de textes et de données sur copyrightuser.org et sur le portail de transposition de la directive CDSM de Communia.
