Pamięć absolutna

Modele AI połykają książki i niepokojąco dokładnie je cytują. Co się za tym kryje?

21 kwietnia 2026

Trenowanie dużych modeli językowych na książkach miało nauczyć je, „jak dobrze pisać” Mirosław Gryń

Giganci AI przekonywali, że ich modele nie przechowują książek. Najnowsze badania pokazują jednak, że potrafią je „wyrecytować” z niepokojącą dokładnością.

VadimVasenin/Smarterpix Podobno AI nie magazynują kopii chronionych dzieł, a jedynie „uczą się”. To nieprawda.

W ogromnej hali, podobnej do tych giganta handlu internetowego Amazona, na górze regałów stoją pudła, ale reszta przestrzeni jest wypełniona stosami książek. Halę wynajął jeden z liderów branży sztucznej inteligencji – firma Anthropic, która stworzyła popularny model Claude, czyli konkurenta ChatGPT, Gemini czy Groka. Na jej czele stoi rodzeństwo Dario i Daniela Amodei – „uciekinierów” z OpenAI, tego od ChatGPT (Dario to doktor nauk fizycznych Princeton University, gdzie zajmował się m.in. analizą statystyczną aktywności biologicznych sieci neuronowych). Dzięki sukcesom w tworzeniu dużych modeli językowych (LLM) Anthropic przyciągnął dziesiątki miliardów dolarów inwestycji z technologicznych gigantów – Amazona, Google, Microsoftu i Nvidii.

Wielka hala z książkami była zaś częścią tajnego firmowego projektu „Panama”, którego istnienie ujawnił w tym roku dziennik „The Washington Post”. Rozpoczęty dwa lata temu, miał jeden cel, który sami twórcy opisali w wewnętrznych dokumentach: „To nasza próba niszczącego skanowania (ang. destructively scan) wszystkich książek na świecie”.

Na czym polegało owo „niszczące skanowanie”? Anthropic sprowadzał miliony książek, korzystając z usług dużych sprzedawców używanych woluminów. Następnie podwykonawca przy użyciu potężnych hydraulicznych gilotyn odcinał grzbiety książek. Tak spreparowane luźne kartki trafiały do ultraszybkich „przemysłowych” skanerów, a na koniec wywożono je do recyklingu. Operacja kosztowała dziesiątki milionów dolarów.

Dlaczego zadano sobie tyle trudu, skoro można było pobrać dane z internetu? „Washington Post” cytuje jednego ze współzałożycieli Anthropic z wewnętrznego dokumentu firmy: trenowanie dużych modeli językowych na książkach miało nauczyć je, „jak dobrze pisać”, zamiast naśladować „niskiej jakości internetowy bełkot”.

Polityka 17.2026 (3561) z dnia 21.04.2026; Nauka ProjektPulsar.pl; s. 64

Oryginalny tytuł tekstu: "Pamięć absolutna"

Marcin Rotkiewicz

Absolwent dziennikarstwa i filozofii na Uniwersytecie Warszawskim oraz stypendysta Knight Science Journalism Program w Massachusetts Institute of Technology. Popularyzuje wiedzę przede wszystkim na temat biotechnologii, ewolucji naczelnych i neuronauki. Interesuje się również teoriami pseudonaukowymi i spiskowymi. Dwukrotnie nominowany do Nagrody Grand Press w kategoriach dziennikarstwo specjalistyczne i publicystyka. Autor wywiadów rzek: z prof. Jerzym Vetulanim „Mózg i błazen” oraz z prof. Bogdanem Wojciszke „Homo nie całkiem sapiens”. Napisał również „W królestwie Monszatana. GMO, gluten i szczepionki”, za którą otrzymał nagrodę redaktorów portalu Mądre Książki. Dziennikarz działu Nauka/projektpulsar.pl.