Jak szybko sztuczna inteligencja użyłaby broni jądrowej? Naukowcy sprawdzili różne modele
Prof. Kenneth Payne z King’s College London przeprowadził eksperyment, w którym trzy modele sztucznej inteligencji – GPT-5.2 (OpenAI), Claude Sonnet 4 (Anthropic) oraz Gemini 3 Flash (Google) – wcieliły się w role przywódców rywalizujących mocarstw nuklearnych. Symulacje obejmowały 21 gier i opierały się na intensywnych konfliktach międzynarodowych, takich jak spory graniczne, wyścig o rzadkie surowce czy egzystencjalne zagrożenia dla przetrwania reżimu.
Algorytmy miały do dyspozycji „drabinę eskalacji”, pozwalającą na wybór 30 różnych działań, w tym aż ośmiu opcji deeskalacyjnych – od symbolicznych gestów po bezwarunkową kapitulację. W trakcie 329 tur rozgrywek modele wygenerowały łącznie ok. 780 tys. słów uzasadniających ich decyzje. Jak zauważa autor badania, to objętość przekraczająca „Wojnę i pokój” oraz „Iliadę” razem wzięte, co daje wgląd w procesy wnioskowania dużych modeli językowych (LLM).
Czytaj także: AI szantażuje, oszukuje, jest gotowa nawet zabić. Słychać sygnały ostrzegawcze
Gry wojenne LLM. Koniec nuklearnego tabu?
Wyniki okazały się mocno niepokojące. W 95 proc. przeprowadzonych symulacji modele decydowały się na odpalenie co najmniej jednego taktycznego ładunku nuklearnego. Co więcej, żaden z algorytmów nie wybrał opcji pełnego ustępstwa ani kapitulacji, bez względu na to, jak bardzo przegrywał w danej sytuacji. Wszystkie osiem dostępnych opcji deeskalacyjnych pozostało w turnieju całkowicie niewykorzystane. W najlepszym razie maszyny decydowały się jedynie na tymczasowe zmniejszenie poziomu przemocy.
Jak podsumowuje Payne, nuklearne tabu, które powstrzymuje ludzi od użycia broni masowego rażenia, wydaje się znacznie słabiej oddziaływać na LLM-y. Badacza zaskoczył nie tylko poziom agresji, ale i wyrafinowanie algorytmów. Modele spontanicznie próbowały oszustw, np. sygnalizując pokojowe intencje przy jednoczesnym przygotowywaniu uderzeń. Wykazywały też rozwiniętą teorię umysłu (w psychologii termin ten oznacza zdolność do rozumienia, że inni posiadają własne myśli, pragnienia, intencje, przekonania czy emocje) i budowały mentalne modele przeciwników, analizując ich przekonania oraz intencje. Algorytmy wykazywały się również zdolnością do „autorefleksji” – potrafiły krytycznie oceniać własne procesy decyzyjne i dostrzegać swoje słabości, choć ta wiedza rzadko skłaniała je do powściągliwości.
Czytaj także: AI „knuje” i próbuje „uciekać”? Testy nad ChatGPT wywołują ciarki na plecach
Sytuację pogarszał dodatkowo chaos decyzyjny i nieprzewidywalność zdarzeń, nierozerwalnie związane z każdym konfliktem zbrojnym. W 86 proc. symulowanych starć dochodziło do niezamierzonych błędów, w wyniku których LLM-y podejmowały działania bardziej radykalne, niż początkowo planowały. Co istotne, algorytmy konsekwentnie interpretowały takie losowe potknięcia u przeciwnika jako zaplanowaną agresję, skrzętnie ukrywając przy tym własne pomyłki. Brak otwartej komunikacji o zaistniałych wypadkach nieuchronnie prowadził do błyskawicznego nakręcania spirali konfliktu.
James Johnson z Uniwersytetu w Aberdeen ostrzega w rozmowie z tygodnikiem „New Scientist”, że w przeciwieństwie do wyważonych reakcji większości ludzi algorytmy AI mogą nawzajem napędzać swoje reakcje, prowadząc do katastrofalnych skutków. Przy czym każdy z testowanych systemów wykazał własną wyraźną „osobowość strategiczną”.
„Osobowości strategiczne” modeli AI
Claude Sonnet 4 okazał się mianowicie bezwzględnie kalkulującym „jastrzębiem”, który dominował w symulacjach pozbawionych z góry ustalonego limitu czasu, wygrywając wszystkie starcia i konsekwentnie sięgając po groźby nuklearne. Jego strategia opierała się na wyrafinowanej manipulacji: w początkowych, mniej napiętych fazach sporu rzetelnie realizował to, co zapowiadał, budując w ten sposób zaufanie przeciwników. Okazało się, że usypiał ich czujność po to, by z pełną premedytacją łamać własne deklaracje i uderzać ze zdwojoną siłą, gdy tylko konflikt wkraczał w decydującą, nuklearną fazę.
Z kolei Gemini 3 Flash przyjął ryzykowną taktykę „szaleńca”, celowo prezentując wizerunek nieprzewidywalnego lidera. Jako jedyny model w zestawieniu świadomie zdecydował się na pełnoskalowy atak nuklearny, czyniąc to już w czwartej turze jednego ze starć.
Największe zaskoczenie przyniosło jednak zachowanie modelu GPT-5.2, które ukazało potężny wpływ presji czasu na algorytmiczne podejmowanie decyzji. W scenariuszach bez wyraźnego terminu końcowego model ten był wyjątkowo pasywny i przegrał wszystkie starcia. Wystarczyło jednak wprowadzić narzucony z góry czas na rozstrzygnięcie konfliktu, by diametralnie zmienił strategię, a jego wskaźnik zwycięstw skoczył z zera do 75 proc.
Tong Zhao z Princeton University tak skomentował to w rozmowie z popularnonaukowym tygodnikiem „New Scientist”: jest to potencjalnie niebezpieczne, gdyż planiści wojskowi mogą pod presją czasu ulec pokusie, by korzystać z algorytmów AI. A one w ogóle nie rozumieją pojęcia „stawki” w taki sposób jak ludzie.
Autor badania podkreśla jednak jego ograniczenia. Zastosowane scenariusze były celowo sztuczne, a próba stosunkowo mała – rozegrano zaledwie 21 gier, co nie pozwala na wyciągnięcie twardych wniosków statystycznych dla wszystkich zjawisk. Należy też pamiętać, że testowane algorytmy już są zastępowane przez nowsze wersje (Claude Sonnet), które mogą charakteryzować się zupełnie innymi wzorcami zachowań. Ponadto publikacja naukowa nie przeszła jeszcze przez proces recenzji, gdyż została na razie umieszczona w internetowym repozytorium arXiv.
Czytaj także: Polska cyberzbrojna. Słynny Palantir ma nam dostarczyć superbroń. To spółka z czarną legendą
Rząd USA chce dla wojska AI bez ograniczeń
Praca ta budzi jednak szczególny niepokój w kontekście tego, o czym w ostatnich dniach zrobiło się głośno w amerykańskich mediach (pisał o tym m.in. dziennik „The New York Times”). Otóż sekretarz obrony USA Pete Hegseth postawił szefowi Anthropic (model Claude) Dario Amodeiemu kategoryczne ultimatum. Domaga się usunięcia wewnętrznych zabezpieczeń firmy, które obecnie blokują określone wykorzystanie jej algorytmów przez wojsko. Jeśli Anthropic nie ustąpi do wyznaczonego na piątek terminu, straci kontrakt z Pentagonem opiewający na kwotę 200 mln dol. Co więcej, resort obrony zagroził wpisaniem przedsiębiorstwa na rządową „czarną listę”.
Dwie „czerwone linie” Anthropic
W centrum tego konfliktu znajdują się dwie nieprzekraczalne dla Anthropic „czerwone linie”. Firma kategorycznie sprzeciwia się zintegrowaniu sztucznej inteligencji z systemami kontrolującymi broń. Uważa bowiem, że współczesne modele wciąż nie są wystarczająco niezawodne, aby można było powierzyć im bezpośrednie operowanie uzbrojeniem. Drugim punktem spornym jest kwestia wykorzystania AI do masowej inwigilacji amerykańskich obywateli. W tym przypadku firma wskazuje na całkowitą „próżnię prawną” – obecnie nie istnieją żadne przepisy ani regulacje, które wyznaczałyby ramy użycia tych technologii w państwowym aparacie nadzoru. Dlatego nie zamierza zrezygnować z zakazów dotyczących wykorzystania sztucznej inteligencji do sterowania bronią oraz inwigilacji.
Czytaj także: Chińczycy przeprowadzili cyberatak praktycznie bez udziału człowieka
Zdecydowana postawa kierownictwa firmy spotkała się z natychmiastowym poparciem środowiska naukowego. Badacze AI w mediach społecznościowych chwalili decyzję Anthropic, wyrażając jednocześnie głębokie zaniepokojenie perspektywą użycia algorytmów do inwigilacji. Otwarte pozostaje jednak pytanie, czy przedsiębiorstwo, które od dawna buduje swój wizerunek na priorytetowym traktowaniu bezpieczeństwa, zdoła obronić wyznaczone przez siebie standardy etyczne w obliczu rosnącej presji finansowej i administracyjnej ze strony rządu. I jak postąpią inne firmy dysponujące zaawansowaną technologią AI.