KI-„Opt-outs“: Sollten Einrichtungen des Kulturerbes den Abbau von Daten des Kulturerbes (nicht) zulassen?

Veröffentlicht 22. August 2024 von

Ariadna Matas (Europeana Foundation)

Text- und Data-Mining-Bestimmungen

Im Jahr 2019 ermöglichte die Richtlinie über das Urheberrecht im digitalen Binnenmarkt jedem, ohne Erlaubnis des Rechteinhabers Kopien anzufertigen und große Mengen urheberrechtlich geschützter Daten zu extrahieren, zu denen er rechtmäßig Zugang hat, um Data-Mining-Aktivitäten durchzuführen. Dies ist möglich, es sei denn, der Rechteinhaber entscheidet sich ausdrücklich dafür, die urheberrechtlich geschützten Daten (mit maschinenlesbaren Mitteln) vom Abbau auszuschließen. Diese Opt-out-Möglichkeit gilt nicht für Data Mining durch kulturelles Erbe und Forschungseinrichtungen zu Forschungszwecken. Zu dieser Zeit war Text- und Data-Mining in anderen Teilen der Welt nicht neu, und die Europäische Union litt unter einem Wettbewerbsnachteil, da sie keine rechtliche Klarheit in ihrer Zuständigkeit hatte.

Mit diesen Bestimmungen soll sichergestellt werden, dass das Urheberrecht den Möglichkeiten, die die Analyse großer Datenmengen für die Bereiche Forschung und Kulturerbe in der Europäischen Union (durch eine erhebliche Verbesserung der Analyse und Auffindbarkeit von Informationen) und für die Informationsgesellschaft insgesamt bietet, nicht im Wege steht.

Blockieren von Data Mining aus Daten des Kulturerbes

Im Jahr 2019 sprachen sich die Einrichtungen des Kulturerbes, die sich für einen demokratischen Zugang zu Informationen einsetzten, für die Ausnahmen für Text- und Data-Mining aus. Es war daher unerwartet, dass dieselben Institutionen erwägen würden, von der Opt-out-Möglichkeit Gebrauch zu machen, den Abbau von urheberrechtlich geschützten Kulturerbedaten zu blockieren.

Die Ablehnung dieser Art der Verarbeitung hat in jüngster Zeit zu Diskussionen im Bereich des Kulturerbes geführt. So hat die Nationalbibliothek der Niederlande ihre allgemeinen Geschäftsbedingungen um einen Wortlaut ergänzt, der es allen kommerziellen generativen KI verbietet, die urheberrechtlich geschützten Werke der Bibliothek abzubauen. Über maschinenlesbare Methoden verbietet es ChatGPT ausdrücklich, ihre Sammlungen zu ernten.

In bestimmten Fällen scheint der Grund für die Einführung eines Opt-outs darin zu liegen, dass Inhaber von Urheberrechten dieses Opt-out als Voraussetzung für die Weitergabe von Daten über die Website einer Organisation des Kulturerbes verlangen. Dies geschieht manchmal durch den einzelnen Rechteinhaber oder durch eine Organisation zur kollektiven Rechtewahrnehmung wie Pictoright in den Niederlanden und Sacem in Frankreich. Aber manchmal scheint die Bereitschaft von der Institution des Kulturerbes selbst zu kommen, die sicherstellen will, dass die Schöpfer durch eine transparente (zugeschriebene) und erlaubnisbasierte Nutzung ihrer Kreationen respektiert werden.

Unter den Hauptargumenten warnen einige vor der Notwendigkeit, das Mining von Daten zu blockieren, um bestimmte „Big-Tech“-Unternehmen, die mit generativer KI arbeiten, daran zu hindern, Daten aus dem Mining zu gewinnen. Tatsächlich analysieren einige große gewinnorientierte Unternehmen große Mengen urheberrechtlich geschützter Daten ohne große Transparenz. Sie wurden dafür kritisiert, dass sie sich auf die „Commons“ (Inhalte, die frei von urheberrechtlichen Beschränkungen verfügbar sind) stützen, ohne zu ihnen beizutragen und gleichzeitig ihren Wettbewerbsvorteil zu stärken.

Über das hinaus, was rechtlich möglich ist: Wofür sollte der Kulturerbesektor stehen?

In den meisten Fällen gewähren Einrichtungen des Kulturerbes Zugang zu Materialien, die entweder nicht urheberrechtlich geschützt sind oder geschützt sind und für die die Rechteinhaber die Veröffentlichung im Internet genehmigt haben, für die die Einrichtung des Kulturerbes jedoch nicht über das Urheberrecht verfügt. In solchen Fällen sind Einrichtungen des Kulturerbes nicht berechtigt, die Entscheidung über die Anwendung eines Data-Mining-Opt-out zu treffen. Sie können dies nur tun, wenn das Urheberrecht besteht und sie das Urheberrecht besitzen.

Aber selbst wenn sie dies tun, lohnt es sich zu fragen, ob die Ablehnung ihre Ziele unterstützt. In gewisser Weise scheint die Sperrung der Möglichkeit, Daten über das Kulturerbe zu nutzen, dem Auftrag öffentlich finanzierter Einrichtungen für das Kulturerbe zuwiderzulaufen. Steht der Beitrag zu vertrauenswürdigen qualitativen Informationen und die Bekämpfung von Fehlinformationen und Voreingenommenheit (in Algorithmen) nicht eher im Einklang mit ihren Zielen?

Wenn es darum geht, die schlechte Praxis einiger großer Akteure in der KI-Welt zu korrigieren, würden sie dann durch die Ablehnung von Daten zum Kulturerbe tatsächlich geschwächt? Big Tech-Unternehmen können rechtliche Risiken eingehen, eine Geldstrafe zahlen oder den Preis für das legale Mining der Daten zahlen. Der Ausschluss von Daten zum Kulturerbe wird sie nicht davon abhalten, sie zu nutzen, sondern dürfte sich stattdessen negativ auf KMU, Journalisten, Fachleute im Bereich des Kulturerbes und Forscher selbst auswirken, die die Daten und auch die Instrumente sowohl für Forschungszwecke als auch für allgemeinere Zwecke verwenden. Es besteht die Gefahr, dass diejenigen geschwächt werden, die die Commons am meisten brauchen. Die Grenzen zwischen Wirtschaft und Forschung werden zunehmend vage. Wo ziehen wir die Grenze?

Sollten die Einrichtungen des Kulturerbes gleiche Wettbewerbsbedingungen schaffen und den offenen Zugang zu kulturellen Inhalten für alle, auch durch Maschinen, gewährleisten? Wenn keine Opt-out-Lösungen zur Verfügung stehen oder verwendet werden, die für die Anwendung auf Einzelpostenbasis geeignet sind, besteht die eindeutige Gefahr, dass die Anwendung eines maschinenlesbaren Opt-out auf öffentlich zugänglichem Material, das online zur Verfügung gestellt wird, überläuft.

Der Fall der Out-of-Commerce-Arbeiten

Mit der oben genannten Urheberrechtsrichtlinie wurde das System der vergriffenen Werke angenommen: eine neue rechtliche Lösung, mit der Einrichtungen des Kulturerbes Materialien in ihren Sammlungen, die nicht (oder nicht mehr) im kommerziellen Verkehr sind, online teilen können, obwohl sie dem Urheberrechtsschutz unterliegen, ohne Erlaubnis des Urheberrechtsinhabers. Dieses neue System beseitigt die (unmögliche) Belastung durch das Löschen von Urheberrechten in großen Sammlungen.

Dies setzt in der Regel voraus, dass eine Lizenz von einer Organisation für die kollektive Rechtewahrnehmung eingeholt wird, die für die betreffenden Materialarten repräsentativ ist. Durch die Richtlinie sind die Organisationen berechtigt, „erweiterte“ Kollektivlizenzen zu erteilen: sie können Einrichtungen des Kulturerbes ermächtigen, Materialien zu verwenden, die Teil des Repertoires der Organisation für die kollektive Rechtewahrnehmung sind, aber auch Materialien, die nicht Teil des Repertoires der Organisation für die kollektive Rechtewahrnehmung sind.

Einige Organisationen für die kollektive Rechtewahrnehmung verpflichten sich, diese vergriffenen Werke vom Abbau auszuschließen, wenn sie von der Einrichtung des Kulturerbes online geteilt werden. Im Rahmen der „erweiterten“ kollektiven Lizenzierung ist dies sowohl praktisch als auch rechtlich problematisch. Praktisch, da es die Wiederverwendungsmöglichkeiten des Materials einschränkt und die Einrichtung des Kulturerbes zusätzlich belastet. Rechtlich, weil fraglich ist, ob eine Organisation für die kollektive Rechtewahrnehmung mit einer „erweiterten“ Lizenz für die kollektive Rechtewahrnehmung der Rechteinhaber ist, der berechtigt ist, ein Data-Mining-Opt-out auszuüben.

Nächste Schritte

Wir in der Urheberrechtsgemeinschaft werden die Entwicklungen in diesem Bereich weiterhin aufmerksam verfolgen. Bleiben Sie dran, indem Sie unserer Gemeinschaft über die Europeana Network Association beitreten und uns in den sozialen Medien folgen. Wenn Sie uns Feedback zu diesem Thema mitteilen möchten, wenden Sie sich bitte an [email protected].

Weitere Informationen zum Text- und Data-Mining finden Sie auf copyrightuser.org und auf dem Communia-Portal zur Umsetzung der CDSM-Richtlinie.