De bepalingen inzake tekst- en datamining
In 2019 maakte de richtlijn auteursrecht in de digitale eengemaakte markt het voor iedereen mogelijk om kopieën te maken en grote hoeveelheden auteursrechtelijk beschermde gegevens te extraheren waartoe zij legaal toegang hebben zonder toestemming van de rechthebbende, om dataminingactiviteiten uit te voeren. Dit is mogelijk tenzij de rechthebbende er uitdrukkelijk voor kiest om de auteursrechtelijk beschermde gegevens (via machineleesbare middelen) niet te ontginnen. Deze opt-outmogelijkheid geldt niet voor datamining door cultureel erfgoed en onderzoeksinstellingen voor onderzoeksdoeleinden. Tekst- en datamining was destijds niet nieuw in andere delen van de wereld, en de Europese Unie leed aan een concurrentienadeel door het ontbreken van juridische duidelijkheid in haar rechtsgebied.
Deze bepalingen moeten ervoor zorgen dat het auteursrecht niet in de weg staat aan de mogelijkheden die de analyse van grote hoeveelheden gegevens biedt voor de sectoren onderzoek en cultureel erfgoed in de Europese Unie (door de analyse en vindbaarheid van informatie aanzienlijk te verbeteren) en voor de informatiemaatschappij in het algemeen.
Datamining van gegevens over cultureel erfgoed blokkeren
In 2019 waren instellingen voor cultureel erfgoed, die pleitten voor democratische toegang tot informatie, voorstander van de uitzonderingen voor tekst- en datamining. Het was dan ook onverwacht dat diezelfde instellingen zouden overwegen gebruik te maken van de opt-outmogelijkheid om de ontginning van auteursrechtelijk beschermde gegevens over cultureel erfgoed te blokkeren.
De opt-out van dit soort verwerking heeft geleid tot recente discussies in de sector cultureel erfgoed. De Nationale Bibliotheek heeft bijvoorbeeld een formulering aan haar algemene voorwaarden toegevoegd die alle commerciële generatieve AI’s verbiedt de auteursrechtelijk beschermde werken van de bibliotheek te ontginnen. Via machineleesbare methoden verbiedt het ChatGPT expliciet om hun collecties te oogsten.
In bepaalde gevallen lijkt de reden voor de toepassing van een opt-out te zijn dat houders van auteursrechten om deze opt-out vragen als voorwaarde voor het delen van gegevens via de website van een organisatie voor cultureel erfgoed. Dit gebeurt soms door de individuele rechthebbende, of door een collectieve beheerorganisatie, zoals Pictoright in Nederland en de Sacem in Frankrijk. Maar soms lijkt de bereidheid afkomstig te zijn van de instelling voor cultureel erfgoed zelf, die ervoor wil zorgen dat makers worden gerespecteerd door een transparant (toegeschreven) en op toestemming gebaseerd gebruik van hun creaties.
Enkele van de belangrijkste argumenten waarschuwen voor de noodzaak om het delven van gegevens te blokkeren om bepaalde “big tech”-bedrijven die met generatieve AI werken, te stoppen met het delven van gegevens. Sommige grote bedrijven met winstoogmerk analyseren grote hoeveelheden auteursrechtelijk beschermde gegevens zonder veel transparantie. Zij zijn bekritiseerd omdat zij zichzelf koesteren op basis van de “gemeenschappelijke kenmerken” (inhoud die vrij van auteursrechtelijke beperkingen beschikbaar is) zonder daaraan bij te dragen en tegelijkertijd hun concurrentievoordeel te versterken.
Voorbij wat wettelijk mogelijk is: Waar moet de erfgoedsector voor staan?
In de meeste gevallen zullen instellingen voor cultureel erfgoed toegang geven tot materiaal dat ofwel niet auteursrechtelijk beschermd is, ofwel beschermd is en waarvoor de rechthebbenden toestemming hebben gegeven om het online te plaatsen, maar waarvoor de instelling voor cultureel erfgoed geen auteursrecht bezit. In dergelijke gevallen hebben instellingen voor cultureel erfgoed niet het recht om de beslissing te nemen om een opt-out voor datamining toe te passen. Ze kunnen dit alleen doen als het auteursrecht bestaat en ze het auteursrecht hebben.
Maar zelfs als ze dat doen, is het de moeite waard om je af te vragen of opt-out hun doelstellingen ondersteunt. In zekere zin lijkt het blokkeren van de mogelijkheid om gegevens over cultureel erfgoed te gebruiken in strijd met de missie van door de overheid gefinancierde instellingen voor cultureel erfgoed. Is het bijdragen aan betrouwbare kwalitatieve informatie en het bestrijden van onjuiste informatie en vooringenomenheid (in algoritmen) niet meer in overeenstemming met hun doelstellingen?
Als het gaat om het corrigeren van de slechte praktijken van sommige grote spelers in de AI-wereld, zou het afzien van gegevens over cultureel erfgoed hen dan daadwerkelijk verzwakken? Grote techbedrijven kunnen juridische risico's nemen, een boete betalen of de prijs betalen voor het legaal delven van de gegevens. Het uitsluiten van gegevens over cultureel erfgoed zal hen er niet van weerhouden deze te gebruiken, maar zal waarschijnlijk negatieve gevolgen hebben voor kmo’s, journalisten, professionals op het gebied van cultureel erfgoed en onderzoekers zelf die de gegevens gebruiken, en ook voor de instrumenten voor zowel onderzoek als meer algemene doeleinden. Het dreigt degenen die de commons het meest nodig hebben te verzwakken. De grenzen tussen commercie en onderzoek worden steeds vager. Waar trekken we de grens?
Moeten instellingen voor cultureel erfgoed een gelijk speelveld creëren en open toegang tot culturele inhoud waarborgen voor iedereen, ook voor machines? Als er geen opt-out-oplossingen beschikbaar zijn of worden gebruikt die geschikt zijn om per item te worden toegepast, bestaat er een duidelijk risico dat het toepassen van een machineleesbare opt-out overloopt op materiaal uit het publieke domein dat online beschikbaar wordt gesteld.
Het geval van niet-commerciële werken
Met de bovengenoemde auteursrechtrichtlijn werd het systeem van werken die niet meer in de handel zijn, goedgekeurd: een nieuwe juridische oplossing waarmee instellingen voor cultureel erfgoed online materiaal in hun collecties kunnen delen dat niet (meer) in de handel is, ook al zijn ze onderworpen aan auteursrechtelijke bescherming, zonder toestemming van de houder van het auteursrecht. Dit nieuwe systeem neemt de (onmogelijke) last weg van het vereffenen van auteursrechten in grote collecties.
Hiervoor is over het algemeen een vergunning vereist van een organisatie voor collectief beheer, die representatief is voor de soorten materialen in kwestie. Op grond van de richtlijn hebben de organisaties het recht om “verlengde” collectieve licenties te verlenen: zij kunnen instellingen voor cultureel erfgoed toestemming geven om materialen te gebruiken die deel uitmaken van het repertoire van de organisatie voor collectief beheer, maar ook materialen die dat niet zijn.
Sommige organisaties voor collectief beheer hebben de verplichting opgenomen om ervoor te zorgen dat deze niet-commerciële werken niet worden gedolven wanneer ze online worden gedeeld door de instelling voor cultureel erfgoed. In de context van “uitgebreide” collectieve licentieverlening is dit zowel praktisch als juridisch problematisch. Praktisch gezien, omdat het de mogelijkheden voor hergebruik van het materiaal beperkt en een extra last legt op de instelling voor cultureel erfgoed. Juridisch gezien, omdat het discutabel is of een organisatie voor collectief beheer in een „uitgebreide” licentie voor collectief beheer de rechthebbende het recht heeft om een opt-out voor datamining uit te oefenen.
Volgende stappen
Wij van de Copyright Community zullen de ontwikkelingen op dit gebied op de voet blijven volgen. Blijf op de hoogte door lid te worden van onze community via de Europeana Network Association en ons te volgen op sociale media. Als u feedback over dit onderwerp met ons wilt delen, neem dan contact op met [email protected].
U kunt meer lezen over tekst- en datamining op copyrightuser.org en op het omzettingsportaal van de CDSM-richtlijn van de Communia.
