Trening za free, profity na miliardy – potrzebna równowaga między innowacją a prawami autorskimi

Wiemy już doskonale co potrafi sztuczna inteligencja. W erze jej błyskawicznego rozwoju coraz więcej firm – startupy i dojrzałe biznesy – budują modele w oparciu o istniejące dane. AI na żądanie generuje obrazy, teksty, dźwięki, a nawet kod – i to z jakością, która pozwala komercyjnie skalować biznes. Jednak zanim AI wygeneruje coś zgodnego z naszym żądaniem, musi się nauczyć. A uczy się na czym? Na cudzych, ogólnodostępnych treściach: Twoich i moich. Tysiącach grafik, ebooków, wpisów blogowych, utworów muzycznych i kodach dostępnych online.
Z prawnego punktu widzenia to pole minowe i właśnie dlatego ten artykuł powstał – jako kompas dla innowatorów, twórców, startupów i przedsiębiorców korzystających z AI w praktyce.

Zacznijmy od tego, co to właściwie znaczy „trenowanie AI na cudzych danych”?

AI, w szczególności ta opierająca się na modelach językowych, jak znany wszystkim ChatGPT, uczy się na podstawie dużych zbiorów danych, które są dostępne w Internecie, np. tekstach (artykułach, książkach, stronach www., dokumentacjach technicznych), bazach wiedzy (Wikipedii, danych urzędowych, zbiorach orzecznictwa), dialogach z publicznych forów, a niektóre modele dodatkowo uczą się na danych dźwiękowych, obrazach czy wideo.

Jak daleko sięga prawo autorskie?

Prawo autorskie chroni utwory, czyli oryginalne i indywidualne przejawy twórczości człowieka, czyli właśnie teksty, zdjęcia, muzykę, grafiki, czy kod. Nie chroni samych informacji, faktów czy idei, bo nie mają one charakteru twórczego.

Jeśli więc model AI trenowany jest na danych, które nie są utworami, czyli czystych danych technicznych i statystykach, to nie wchodzi to w kolizję z prawem autorskim.

Ale jeśli używane są teksty z blogów, zdjęcia z Instagrama czy kody z repozytoriów, to ryzyko naruszenia praw autorskich jest bardzo realne.

Czy uczenie mieści się w zakresie dozwolonego użytku?

Najpierw chwila na krótkie przedstawienie czym jest dozwolony użytek. Polskie prawo przewiduje możliwość wykorzystywania czyichś utworów bez zgody autora czyli w ramach dozwolonego użytku:

osobistego – mogę udostępnić utwór, np. książkę, osobie najbliższej;

dydaktycznego i naukowego – instytucje oświatowe mogą korzystać z oryginałów i tłumaczeń oraz je zwielokrotniać z zachowaniem ściśle określonych warunków;

podczas ceremonii religijnych i uroczystości organizowanych przez władze publiczne – z wyłączeniem kampanii reklamowych, promocyjnych i wyborczych;

oraz w innych przypadkach określonych w ustawie o prawie autorskim i prawach pokrewnych, dla których znajdzie się miejsce w osobnym wpisie. Wróćmy teraz do trenowania AI.

Pomimo istnienia możliwości użytkowania utworów w konkretnych sytuacjach, trenowanie modeli AI – jak można łatwo wywnioskować – nie mieści się w klasycznym katalogu dozwolonego użytku.

Kiedy więc trenowanie AI może być legalne i jak nie naruszyć autorskich praw majątkowych twórców?

Jest kilka możliwości:

1. Masz licencję na wykorzystanie danych do tego celu. To oczywiście rozwiązanie, które najbardziej polecam. Twórcom należy się zapłata za ich pracę, a odpowiednia licencja to umożliwi i nie pozostawia żadnych wątpliwości.

2. Dane udostępnione są na podstawie licencji open source lub open content. Jednak bardzo ważne jest sprawdzenie wersji licencji, gdyż niekoniecznie licencja zezwala na komercyjne użycie utworu. Jeśli chcesz sprawdzić czy konkretna licencja na to zezwala, skontaktuj się ze mną przez formularz kontaktowy. Sprawdzę to za Ciebie.

3. Dane nie są chronione prawem autorskim. Nie wszystko według polskiego prawa można określić jako utwór. W określeniu czy coś jest utworem również pomogę Ci przez formularz kontaktowy.

4. Dane są w domenie publicznej, do której trafiają np. utwory 70 lat po śmierci twórcy.

5. Dane wykorzystywane są niekomercyjne w działalności dydaktycznej. Organizacje badawcze i instytucje dziedzictwa kulturowego – na przykład uniwersytety, instytucje badawcze, biblioteki, archiwa – mogą korzystać z cudzych treści w określonym zakresie pod warunkiem, że korzystają z nich wyłącznie do badań naukowych i pod warunkiem, że treści zostały pozyskane legalnie.

Jak w praktyce legalnie budować model AI?

Zweryfikuj źródło Twoich danych i sprawdź czy masz do nich prawo
Sprawdzaj licencje danych, czyli to na jakich warunkach możesz ich użyć
Unikaj scrapowania danych (czyli ich ekstrakcji) z platform bez sprawdzenia ich regulaminu
Zabezpiecz się umowami z twórcami danych, na których będzie się uczył Twój model AI.

A co z wynagrodzeniem dla twórców za użycie ich dzieł w trenowaniu modeli AI?

Zgodnie z treścią przepisów prawa autorskiego, do twórcy należy decyzja w jaki sposób jego utwór może być wykorzystywany oraz ma prawo do wynagrodzenia z tego tytułu. Nie podlega to żadnej dyskusji, a przynajmniej nie powinno. Dlatego za eksploatację utworu, tj. używanie go do trenowania modeli AI należy twórcy zapłacić. Tworzenie dzieł – architektonicznych, pisanych, komponowanych – to praca, a za pracę należy się wynagrodzenie i nie jest to jedynie kwestia prawna, ale również kwestia budowania współpracy opartej na partnerstwie.

Polskie prawo nie jest nadal przystosowane do dynamicznie zmieniającego się świata. Powstające przepisy prawne są odpowiedzią na występujące już problemy społeczne, nie „na zaś”. Każde pytanie rodzi kilka kolejnych, np. skoro mowa o wynagrodzeniu dla twórców, to w jaki sposób tego dokonać bez potrzeby sporządzania dziesiątek tysięcy umów licencyjnych?

Rzeczywiście udzielanie licencji przez każdy podmiot osobno jest wręcz nierealne i totalnie zniechęca do jakichkolwiek prac nad nowymi technologiami. Ponadto negocjowanie z każdym twórcą z osobna spowolniłoby prace nad rozwojem sztucznej inteligencji, a nie to jest celem prawników chroniących własność twórców i przedsiębiorców.

Na rynku pojawia się kilka propozycji rozwiązania kwestii wynagrodzenia dla twórcy przy jednoczesnym zachowaniu dynamiki rozwoju sztucznej inteligencji, na przykład licencje zbiorowe, które oczywiście wymagałyby uregulowania w przepisach prawa. Takie licencje byłyby zarządzane przez organizacje zbiorowego zarządzania (OZZ) lub inne podmioty pośredniczące, które pobierałyby zbiorczą opłatę na rzecz zrzeszonych twórców oraz przekazywałyby ją do repartycji. Co więcej, należy tu zaznaczyć, że w przypadku ewentualnego sporu to na dostawcy AI powinien spoczywać ciężar dowodu, że nie doszło do wykorzystania chronionych utworów, a nie na twórcy, że jego utwór został użyty. Tylko takie podejście wyrównuje szanse – zwłaszcza że po jednej stronie mamy często pojedynczego twórcę, a po drugiej – potężny podmiot technologiczny, z dostępem do kapitału, zespołów prawnych i infrastruktury, której jednostka nie ma szans przebić.

Nie da się ukryć – polskie prawo wymaga aktualizacji. I to pilnie. Potrzebujemy rozwiązań systemowych, które z jednej strony zagwarantują twórcom godziwe wynagrodzenie za wykorzystywanie ich dzieł w procesie uczenia modeli AI, a z drugiej – nie będą blokować innowacji i rozwoju technologii. Moje stanowisko jest jasne: za pracę twórców należy płacić. Bez twórców nie ma danych, bez danych – nie ma AI. Ale jednocześnie nie możemy dopuścić do tego, by nadregulacja zatrzymała rozwój narzędzi, które mogą przynieść realną wartość społeczną i gospodarczą. Potrzebujemy równowagi – systemu, który będzie premiował uczciwe wykorzystanie twórczości, bez hamowania innowacyjności. Tylko wtedy AI stanie się technologią budującą przyszłość, a nie narzędziem pogłębiającym nierówności i spory społeczne.

Zacznijmy od tego, co to właściwie znaczy „trenowanie AI na cudzych danych”?

Jak daleko sięga prawo autorskie?

Czy uczenie mieści się w zakresie dozwolonego użytku?

Leave Comment Anuluj pisanie odpowiedzi