Wyniki testów dużych modeli językowych budzą obawy, czy będzie można na nich polegać. Systemy AI mogą bowiem rozwinąć zdolność do strategicznego „oszukiwania” swoich twórców i opiekunów.

5 grudnia firma OpenAI w nietuzinkowy sposób rozpoczęła prezentację swoich nowych produktów. Zapowiedziała, że codziennie przez 12 dni roboczych o godz. 19 (polskiego czasu) będzie przeprowadzać transmisje na żywo, pokazując, co udostępni użytkownikom. Już pierwszy dzień okazał się hitem, gdyż firma zaskoczyła pełną wersją swojego najbardziej zaawansowanego modelu ChatGPT o nazwie o1, dotychczas dostępną tylko w wersji „poglądowej” (o1 preview).

Wyróżnia się ona zdolnością do „myślenia” przed udzieleniem odpowiedzi, czyli przetwarza wewnętrznie serię pośrednich kroków, co pomaga jej dojść do dokładnej końcowej odpowiedzi. Wcześniejsze modele koncentrowały się „jedynie” na szybkim generowaniu płynnych językowo odpowiedzi. Dzięki temu o1 ma być znacznie lepszy w radzeniu sobie ze skomplikowanymi zadaniami, takimi jak pisanie kodu komputerowego czy rozwiązywanie problemów matematycznych. Według OpenAI w kwalifikacyjnym egzaminie do Międzynarodowej Olimpiady Matematycznej (IMO) najnowszy model uzyskał 83 proc. trafnych odpowiedzi, podczas gdy jego poprzednik, GPT-4o, tylko 13 proc.

Wraz z wprowadzeniem o1 OpenAI zaprezentowało nową subskrypcję ChatGPT Pro w cenie aż 200 dol. miesięcznie (zwykła subskrypcja jest dziesięć razy tańsza). Ta ekskluzywna oferta daje nieograniczony dostęp m.in. do modelu o1 Pro, wykorzystującego więcej mocy obliczeniowych, co umożliwia mu „głębsze myślenie” i dostarczanie lepszych odpowiedzi na najtrudniejsze problemy. Przynajmniej tak reklamuje go OpenAI, ale na bardziej obiektywne wyniki musimy jeszcze poczekać.

Testy ChatGPT o1 wywołują ciarki na plecach

Udostępnienie o1 zostało jednak niespodziewane przyćmione za sprawą raportu, który OpenAI opublikowało na swojej stronie internetowej.