Przepisy dotyczące eksploracji tekstów i danych
W 2019 r. dyrektywa w sprawie praw autorskich na jednolitym rynku cyfrowym umożliwiła każdemu wykonywanie kopii i wydobywanie dużych ilości danych chronionych prawem autorskim, do których ma legalny dostęp bez zgody podmiotu praw autorskich, w celu prowadzenia działalności w zakresie eksploracji danych. Jest to możliwe, chyba że podmiot praw autorskich wyraźnie zdecyduje się na „rezygnację” z wydobywania danych chronionych prawem autorskim (za pomocą środków nadających się do odczytu maszynowego). Ta możliwość rezygnacji nie ma zastosowania do eksploracji danych przez instytucje zajmujące się dziedzictwem kulturowym i instytucje badawcze do celów badawczych. W tamtym czasie eksploracja tekstów i danych nie była nowością w innych częściach świata, a Unia Europejska znajdowała się w niekorzystnej sytuacji konkurencyjnej ze względu na brak jasności prawa w swojej jurysdykcji.
Przepisy te mają na celu zapewnienie, aby prawo autorskie nie stało na przeszkodzie możliwościom, jakie analiza dużych ilości danych stwarza sektorom badań i dziedzictwa kulturowego w Unii Europejskiej (poprzez znaczną poprawę analizy i wykrywalności informacji) oraz całemu społeczeństwu informacyjnemu.
Blokowanie eksploracji danych na podstawie danych dotyczących dziedzictwa kulturowego
W 2019 r. instytucje dziedzictwa kulturowego opowiadające się za demokratycznym dostępem do informacji opowiedziały się za wyjątkami dotyczącymi eksploracji tekstów i danych. Nieoczekiwane było zatem, że te same instytucje rozważą skorzystanie z możliwości wyłączenia w celu zablokowania wydobycia danych dotyczących dziedzictwa kulturowego chronionych prawem autorskim.
Rezygnacja z tego rodzaju przetwarzania wywołała niedawne dyskusje w sektorze dziedzictwa kulturowego. Na przykład Biblioteka Narodowa Niderlandów dodała do swoich warunków sformułowanie, które zakazuje wszelkim komercyjnym generatywnym AI wydobywania chronionych prawem autorskim utworów biblioteki. Dzięki metodom nadającym się do odczytu maszynowego wyraźnie zabrania ChatGPT zbierania ich kolekcji.
W niektórych przypadkach wydaje się, że powodem wprowadzenia klauzuli opt-out jest fakt, że podmioty praw autorskich zwracają się o taką klauzulę opt-out jako warunek udostępniania danych za pośrednictwem strony internetowej organizacji dziedzictwa kulturowego. Dokonuje tego niekiedy indywidualny podmiot praw autorskich lub organizacja zbiorowego zarządzania, taka jak Pictoright w Niderlandach i Sacem we Francji. Czasami jednak wydaje się, że chęć ta pochodzi od samej instytucji dziedzictwa kulturowego, która chce zapewnić poszanowanie twórców poprzez przejrzyste (przypisane) i oparte na zezwoleniach korzystanie z ich dzieł.
Wśród głównych argumentów niektórzy ostrzegają przed koniecznością zablokowania wydobycia danych w celu powstrzymania niektórych przedsiębiorstw z branży dużych technologii pracujących z generatywną sztuczną inteligencją przed pozyskiwaniem danych. Niektóre duże przedsiębiorstwa nastawione na zysk analizują duże ilości danych chronionych prawem autorskim bez większej przejrzystości. Zostały one skrytykowane za pielęgnowanie się na „wspólnych” (treści dostępnych bez ograniczeń praw autorskich) bez przyczyniania się do nich przy jednoczesnym wzmacnianiu ich przewagi konkurencyjnej.
Poza tym, co jest prawnie możliwe: Co powinien oznaczać sektor dziedzictwa?
W większości przypadków instytucje dziedzictwa kulturowego udzielają dostępu do materiałów, które albo nie są chronione prawem autorskim, albo są chronione i w odniesieniu do których podmioty praw autorskich zezwoliły na publikację w internecie, ale w odniesieniu do których instytucja dziedzictwa kulturowego nie posiada praw autorskich. W takich przypadkach instytucje dziedzictwa kulturowego nie są uprawnione do podjęcia decyzji o zastosowaniu klauzuli opt-out w zakresie eksploracji danych. Mogą to zrobić tylko wtedy, gdy istnieją prawa autorskie i posiadają prawa autorskie.
Ale nawet jeśli tak, warto zastanowić się, czy rezygnacja wspiera ich cele. W pewnym sensie blokowanie możliwości wykorzystywania danych dotyczących dziedzictwa kulturowego wydaje się sprzeczne z misją instytucji dziedzictwa kulturowego finansowanych ze środków publicznych. Czy przekazywanie wiarygodnych informacji jakościowych oraz zwalczanie informacji wprowadzających w błąd i stronniczości (w algorytmach) nie jest bardziej zgodne z ich celami?
Jeśli chodzi o korygowanie złych praktyk niektórych dużych graczy w świecie sztucznej inteligencji, czy rezygnacja z danych dotyczących dziedzictwa kulturowego faktycznie je osłabi? Duże firmy technologiczne mogą podjąć ryzyko prawne, zapłacić grzywnę lub zapłacić cenę za legalne wydobycie danych. Wyłączenie danych dotyczących dziedzictwa kulturowego nie powstrzyma ich przed ich wykorzystaniem, ale może mieć negatywny wpływ na MŚP, dziennikarzy, osoby zawodowo zajmujące się dziedzictwem kulturowym i samych badaczy, którzy wykorzystują te dane, a także narzędzia zarówno do celów badawczych, jak i bardziej ogólnych. Istnieje ryzyko osłabienia tych, którzy najbardziej potrzebują dóbr wspólnych. Granice między badaniami naukowymi a komercyjnymi są coraz bardziej niejasne. Gdzie narysujemy granicę?
Czy instytucje dziedzictwa kulturowego powinny wyrównać szanse i zapewnić wszystkim, również maszynom, otwarty dostęp do treści kulturowych? W przypadku braku dostępnych lub stosowanych rozwiązań opt-out, które nadają się do stosowania w odniesieniu do poszczególnych produktów, istnieje wyraźne ryzyko, że zastosowanie klauzuli opt-out nadającej się do odczytu maszynowego spowoduje przepełnienie materiałów należących do domeny publicznej, które są udostępniane online.
Przypadek utworów niedostępnych w obrocie handlowym
Wraz ze wspomnianą wyżej dyrektywą o prawach autorskich przyjęto system utworów niedostępnych w obrocie handlowym: nowe rozwiązanie prawne, za pomocą którego instytucje dziedzictwa kulturowego mogą udostępniać online w swoich zbiorach materiały, które nie są (lub już nie są) w obrocie handlowym, mimo że podlegają ochronie praw autorskich, bez zgody podmiotu praw autorskich. Ten nowy system eliminuje (niemożliwe) obciążenie związane z usuwaniem praw autorskich w dużych zbiorach.
Zasadniczo wymaga to uzyskania licencji od organizacji zbiorowego zarządzania, która jest reprezentatywna dla danych rodzajów materiałów. Na mocy dyrektywy organizacje są uprawnione do udzielania „rozszerzonych” licencji zbiorowych: mogą upoważnić instytucje dziedzictwa kulturowego do korzystania z materiałów należących do repertuaru organizacji zbiorowego zarządzania, ale także z materiałów, które nimi nie są.
Niektóre organizacje zbiorowego zarządzania wprowadzają obowiązek rezygnacji z wydobywania utworów niedostępnych w obrocie handlowym, jeżeli są one udostępniane online przez instytucję dziedzictwa kulturowego. W kontekście „rozszerzonych” licencji zbiorowych jest to problematyczne zarówno z praktycznego, jak i prawnego punktu widzenia. Praktycznie, ponieważ ogranicza możliwości ponownego wykorzystania materiału i stanowi dodatkowe obciążenie dla instytucji dziedzictwa kulturowego. Z prawnego punktu widzenia, ponieważ wątpliwe jest, czy organizacja zbiorowego zarządzania objęta „rozszerzoną” licencją na zbiorowe zarządzanie jest podmiotem uprawnionym do skorzystania z klauzuli opt-out w zakresie eksploracji danych.
Kolejne kroki
My w społeczności praw autorskich będziemy nadal uważnie śledzić rozwój sytuacji w tej dziedzinie. Bądź na bieżąco, dołączając do naszej społeczności za pośrednictwem stowarzyszenia Europeana Network i śledząc nas w mediach społecznościowych. Jeśli chcą Państwo podzielić się z nami swoimi opiniami na ten temat, prosimy o kontakt na adres [email protected].
Więcej informacji na temat eksploracji tekstów i danych można znaleźć na stronie copyrightuser.org oraz na portalu transponującym dyrektywę CDSM Communia.
