Zmyślone fakty i fałszywe odpowiedzi to fundamentalny problem dużych modeli językowych (ang. skrót LLM), takich jak ChatGPT, Gemini, Claude czy Grok. Zjawisko to nazywane jest halucynacjami, gdyż algorytm AI generuje brzmiące wiarygodnie, lecz nieprawidłowe stwierdzenia, robiąc to z pełnym przekonaniem, zamiast przyznać się do niewiedzy. Problem ten podważa zaufanie do technologii LLM-ów i stanowi przeszkodę dla szerokiego ich stosowania w różnych dziedzinach, gdyż trudno polegać na zawodnym z natury narzędziu.
Dlaczego modele językowe halucynują
Pod koniec sierpnia naukowcy z OpenAI (twórcy ChatGPT) i Georgia Institute of Technology w Atlancie zamieścili w internecie bardzo ciekawą pracę naukową pt. „Why Language Models Hallucinate” (Dlaczego modele językowe halucynują). Wyjaśniają w niej, że nie wynika to z tajemniczych błędów, ale tego, że są tak szkolone w ramach procedur treningu i oceny.
Problem zaczyna się już podczas „szkolenia wstępnego” (ang. pretraining), gdy model uczy się statystycznie przewidywać następne słowo w danej sekwencji na podstawie analizy gigantycznych ilości tekstu. Na tym etapie nie próbuje bowiem odróżniać prawdy od fałszu, bo widzi jedynie pozytywne przykłady płynnego języka. I o ile z łatwością przyswaja wzorce (gramatyczne czy ortograficzne), o tyle zawodzi w kwestii faktów, które bywają arbitralne i nie wynikają z żadnego wzorca (jak np. data urodzin danej osoby czy tytuł jej doktoratu). Jeśli konkretny fakt pojawia się w danych treningowych rzadko (np. tylko raz), model nie ma wystarczającej podstawy statystycznej, by go odtworzyć, co prowadzi do błędów.
Ta tendencja do zgadywania jest następnie „cementowana” w drugiej fazie treningu, czyli tzw. dostrajania (ang. post-training). Modele są wtedy optymalizowane, by osiągać jak najlepsze wyniki w standardowych testach (benchmarkach). I tu autorzy publikacji posługują się kluczową analogią: algorytmy są tak trenowane, by zachowywać się podobnie do studentów stających przed trudnymi pytaniami egzaminacyjnymi. Mogą zgadywać w testach wielokrotnego wyboru, a nawet blefować na egzaminach pisemnych. Bo zarówno studenci, jak i modele działają w systemie, który nagradza zgadywanie.
Czytaj też: AI szantażuje, oszukuje, jest gotowa nawet zabić. Już słychać ważne sygnały ostrzegawcze
Udawaj, aż ci się uda
Większość benchmarków stosuje bowiem binarny system oceniania: punkt za poprawną odpowiedź, zero punktów za brak odpowiedzi lub odpowiedź błędną. W takim systemie student (lub model) staje przed wyborem: odpowiedzieć „nie wiem” (gwarantowane zero punktów) czy spróbować „blefować” lub zgadywać (szansa na jeden punkt). Po tysiącach pytań LLM, który stosuje strategię „udawaj, aż ci się uda” (ang. fake-it-till-you-make-it), statystycznie osiąga lepszy wynik w rankingu niż ostrożny, który uczciwie przyznaje się do niewiedzy. Modele są więc tak optymalizowane, by dobrze zdawać testy, a 9 na 10 popularnych benchmarków przeanalizowanych przez badaczy promuje tego typu zachowanie.
Czy zatem halucynacje są nieuniknione? Według autorów publikacji – nie. Rozwiązaniem nie powinno być jednak dążenie do stuprocentowej poprawności odpowiedzi, bo jest ona nieosiągalna – niektóre pytania są po prostu nierozwiązywalne lub informacje niedostępne.
Dobrym wyjściem wydaje się więc zmiana zasad oceniania. Dlatego naukowcy OpenAI i Georgia Tech proponują „socjotechniczną” modyfikację: zamiast tworzyć nowe, specjalne testy wykrywające halucynacje (które i tak „zginą” wśród wyników licznych innych benchmarków), należy przebudować punktację w tych głównych sprawdzianach dla modeli AI. Powinno się zacząć karać błędne odpowiedzi (np. punktami ujemnymi) lub nagradzać przyznawanie się do niewiedzy. Dopiero gdy wiodące rankingi przestaną promować zgadywanie, firmy będą miały motywację, by trenować modele w kierunku uczciwości.
Czytaj też: „Ożywicie mi to zdjęcie?”. AI na życzenie wskrzesi nawet zmarłych. Czy to groźne?
Niewiedza nie popłaca
Techniczne rozwiązanie problemu jest zatem znane (i proponowane przez ludzi z OpenAI), ale wdrożenie go napotyka na fundamentalny problem biznesowy, który został niedawno opisany w artykule opublikowanym w serwisie internetowym tygodnika „Science”. Istnieje bezpośredni konflikt między „prawdomównością” modelu a zaangażowaniem użytkownika. Brutalna rzeczywistość jest bowiem taka, że gdyby ChatGPT zbyt często odpowiadał „nie wiem”, korzystające z niego osoby uznałyby go za mało użyteczny i po prostu poszukały odpowiedzi gdzie indziej.
Choć warto zauważyć – na co wskazują testy – że najnowszy model GPT-5 halucynuje w mniejszym stopniu, zwłaszcza z włączoną opcją tzw. rozumowania (zamiast od razu dawać odpowiedź, LLM rozwiązuje problem krok po kroku), choć nadal się to zdarza.
Aczkolwiek dla firmy takiej jak OpenAI, która próbuje osiągnąć rentowność i poszerzyć bazę użytkowników (jedynie ok. 5 proc. płaci za subskrypcję), znaczne zwiększenie liczby odpowiedzi „nie wiem” byłoby śmiertelnie niebezpieczne. Nikt bowiem nie chce być pierwszym, który złamie branżową normę, ryzykując, że klienci przejdą do pozornie pewniejszych siebie konkurentów. Jak dosadnie ujął to w rozmowie z „Science” jeden z badaczy AI dr Wei Xing z University of Sheffield: naprawienie halucynacji mogłoby zabić produkt.