Meta trenowała AI na pirackich ebookach

Meta trenowała AI na pirackich ebookach

Autor: Krzysztof Sulikowski

Opublikowano: 2/10/2025, 6:20 PM

Liczba odsłon: 129

Trenowanie sztucznej inteligencji na danych objętych prawami autorskimi wzbudza wiele kontrowersji. Z jednej strony fascynuje nas wizja AI, która posiadła całą spisaną wiedzę ludzkości, a z drugiej – nieskrępowane korzystanie z chronionej własności intelektualnej można uznać za naruszenie zasad etycznych i prawnych. Meta zdaje się nimi nie przejmować.

Meta (dawniej Facebook) to dziś jeden z czołowych twórców sztucznej inteligencji. Jak w przypadku większości modeli, również jego były szkolone na dużych zestawach danych. Okazuje się, że nie do końca legalnie pozyskanych. W styczniu wniesiono pozew, oskarżający Metę o trenowanie jej modeli AI na zestawie danych składającym się z pirackich ebooków i artykułów. Ujawnione e-maile dostarczyły nowych dowodów przeciwko firmie Marka Zuckerberga w sprawie dotyczącej praw autorskich, wytoczonej przez autorów książek.

Autorzy oskarżyli Meta o nielegalne trenowanie modeli AI na pirackich książkach. Zarzuty te zostały teraz dodatkowo potwierdzone przez ujawnioną korespondencję. E-maile te ujawniły, że Meta przyznała się do pobrania z torrentów kontrowersyjnego, dużego zestawu danych LibGen, który zawiera dziesiątki milionów spiraconych książek. Według autorów pozwu Meta pobrała przynajmniej 81,7 terabajta danych z wielu szemranych bibliotek poprzez witrynę Anna's Archive, w tym przynajmniej 35,7 TB danych z LibGen i Z-Library. Oprócz tego firma pobrała wcześniej 80,6 TB danych z LibGen.

Oskarżyciele opisali skalę tego nielegalnego procederu jako zdumiewającą, zauważając, że znacznie mniejsze akty piractwa danych – zaledwie 0,008% ilości chronionych prawem autorskim utworów, które Meta przejęła – doprowadziły do ​​tego, że sędziowie skierowali sprawę do prokuratury USA w celu wszczęcia dochodzenia karnego. E-maile wykazały, że pracownicy Mety byli świadomi ryzyka prawnego związanego z ich działaniami. W kwietniu 2023 r. Nikolay Bashlykov, inżynier badawczy w Meta, napisał, że pobieranie torrentów z firmowego laptopa nie wydaje się właściwe.

Kilka miesięcy później Bashlykov skontaktował się z zespołem prawnym. Używanie torrentów oznacza 'seedowanie' plików, tj. udostępnianie zawartości na zewnątrz. To może być legalnie nie OK – pisał. Mimo tych ostrzeżeń – jak uważają autorzy – Meta postanowiła ukryć aktywność seedowania, ustawiając je na najniższą możliwą przepustowość. Firma próbowała też najprawdopodobniej uniknąć ryzyka, by ktokolwiek namierzył ją jako seedującego/pobierającego, ściągając dane na inne serwery.

Źródło: https://www.neowin.net/news/leaked-emails-allegedly-reveal-meta-torrented-terabytes-of-pirated-ebooks-for-ai-training/

Jak wykorzystać Copilot w codziennej pracy? Kurs w przedsprzedaży
Jak wykorzystać Copilot w codziennej pracy? Kurs w przedsprzedaży

Wydarzenia