Przejdź do treści
Reklama
Reklama
Nauka

AI zdobywa złoto na olimpiadzie z matematyki. Na czym się wyłożyła i co to oznacza

Entuzjaści mówią o „momencie lądowania na Księżycu dla AI”. Entuzjaści mówią o „momencie lądowania na Księżycu dla AI”. Thomas T / Unsplash
Entuzjaści mówią o „momencie lądowania na Księżycu dla AI”, ale matematycy ostrzegają przed pochopnymi wnioskami. Zwłaszcza że jedna z firm zignorowała oficjalne procedury.

Międzynarodowa Olimpiada Matematyczna (IMO), organizowana corocznie od 66 lat, to coś więcej niż konkurs. Uważana jest bowiem za najbardziej prestiżowe na świecie miejsce zmagań młodych, uzdolnionych matematycznie uczniów na poziomie przeduniwersyteckim.

Każdy kraj może wysłać na nią sześcioosobową drużynę wyłonioną w lokalnych eliminacjach. W tym roku do zmagań stanęło 630 przedstawicieli 110 krajów (w tym 69 kobiet). Kiedy ogłoszono wyniki, nadeszła bardzo miła wiadomość – Polacy zdobyli trzy złote i trzy srebrne medale, osiągając najlepszy rezultat od 1973 r. Drużynowo zajęli zaś czwarte miejsce ex aequo z Japonią (i okazali się najlepsi spośród wszystkich europejskich krajów uczestniczących w tegorocznym IMO).

Czytaj też: Ogłupianie na śniadanie. Czy ChatGPT naprawdę niszczy mózg? Pora na mały fact-check

AI na medal

Zmagania uczniów trwały dwa dni – podczas każdego z nich trzeba było rozwiązać zestaw wyjątkowo trudnych trzech zadań (z algebry, geometrii, teorii liczb i kombinatoryki) w ciągu maksymalnie czterech i pół godziny. Odpowiedzi eksperci oceniali w skali od 0 do 7 pkt za każde zadanie, co dawało maksymalnie 42 pkt. Żeby zdobyć złoty medal, trzeba było uzyskać minimum 35.

Tegoroczna IMO miała dodatkowy smaczek, gdyż przed zawodami do organizatorów zgłosiło się kilku głównych graczy z branży AI – Google, Huawei, ByteDance (właściciel TikToka) i OpenAI – prosząc o możliwość oficjalnej oceny rozwiązania zadań konkursowych przez ich modele. Organizatorzy zgodzili się pod jednym warunkiem: wyniki miały zostać ogłoszone dopiero 28 lipca, czyli po zakończeniu ceremonii przewidzianej dla ludzkich uczestników, żeby nie przyćmić medialnie osiągnięć młodych ludzi.

Google podporządkował się tym zasadom, ale OpenAI – czyli twórcy ChatGPT – już nie. Firma początkowo pytała o udział w IMO, ale po otrzymaniu informacji o procedurze nie odpowiedziała ani nie zgłosiła swojego modelu do oficjalnej oceny. Zamiast tego 19 lipca ogłosiła sukces – „zdobycie” złotego medalu – powołując się na ewaluację wyników wykonaną przez trzech byłych medalistów IMO działających poza oficjalnym konkursem.

Ta różnica w podejściu wywołała burzę w środowisku matematycznym. Terence Tao, powszechnie uznawany za jednego z najwybitniejszych żyjących matematyków, wydał oświadczenie, w którym odmówił komentowania „samoraportowanych wyników AI”. W praktyce oznacza to, że Tao w ogóle nie uznaje osiągnięcia OpenAI.

Czytaj też: Rosną zdolności perswazyjne AI. Czy to nam zagraża?

Wyłożyły się na kombinatoryce

Ten mały skandal trochę przyćmił tegoroczny wielki sukces twórców modeli AI. Do tej pory bowiem najlepszymi wynikami w IMO mogło się pochwalić słynne brytyjskie laboratorium sztucznej inteligencji DeepMind (należące do Google’a), na którego czele stoi noblista Demis Hassabis. W ubiegłym roku jego dwa współdziałające algorytmy – AlphaProof i AlphaGeometry (pierwszy służy do automatycznego dowodzenia twierdzeń matematycznych w języku programowania Lean, drugi do rozwiązywania zadań z geometrii euklidesowej) – osiągnęły wynik na poziomie srebrnego medalu IMO, czyli zdobywając 28 pkt. Zajęło im to jednak aż trzy dni i wymagało tłumaczenia zadań na języki formalne (zrozumiałe dla algorytmów).

W tym roku modele DeepMind oraz OpenAI pracowały bezpośrednio w języku naturalnym (czyli otrzymały zadania w takiej formie jak ludzie) i zmieściły się w regulaminowym czasie czterech i pół godziny. Obydwa rozwiązały pięć z sześciu problemów matematycznych, zdobywając po 35 pkt. To wynik, który plasuje je ex aequo na 27. miejscu wśród wszystkich uczestników, czyli w gronie 72 złotych medalistów. Dla porównania: zaledwie pięciu ludzkich zawodników osiągnęło maksymalny wynik 42 pkt.

Okazało się, że obydwa modele „wyłożyły się” na tym samym zadaniu nr 6 z dziedziny kombinatoryki (to dział matematyki zajmujący się – w uproszczeniu – obliczaniem możliwości, np. mamy klocki, z których budujemy wieżę, i obliczamy, na ile różnych sposobów da się to zrobić). Co ciekawe, w ubiegłym roku algorytmy DeepMind też nie poradziły sobie z kombinatoryką.

Na obronę sztucznej inteligencji można przywołać fakt, że zadanie nr 6 stanowiło ogromne wyzwanie również dla ludzi – zaledwie sześciu uczestników olimpiady zdołało uzyskać za nie maksymalną liczbę punktów. Nie wiemy jednak, czy i w jakim stopniu systemy AI podjęły próbę jego rozwiązania.

Czytaj też: AI „knuje” i próbuje „uciekać”? Testy nad ChatGPT wywołują ciarki na plecach

Jakby matematyk mówił na głos

Analiza odpowiedzi algorytmów sztucznej inteligencji ujawniła intrygujące różnice pomiędzy modelami obu firm. Deep Think, bo tak nazywa się ten od Google’a, generował eleganckie, dobrze ustrukturyzowane dowody w stylu podręcznikowym. Model OpenAI (nie podano jego nazwy) pisał zaś chaotycznie, jakby matematyk mówił na głos, dodając uwagi typu: „dobrze, sprawdźmy to” czy „tak, to ma sens”. W zadaniu geometrycznym, gdzie Deep Think przedstawił klasyczny dowód w stylu Euklidesa, algorytm OpenAI wyprodukował 300 linijek obliczeń – poprawnych, ale pozbawionych matematycznej elegancji.

Po ujawnieniu wyników osiągniętych przez algorytmy entuzjaści zaczęli wieszczyć rewolucję. Na przykład Sebastian Bubeck z OpenAI napisał na Twitterze o „momencie lądowania na Księżycu dla AI”. Jednak Kevin Buzzard, matematyk z Imperial College, studzi emocje: umiejętność rozwiązywania olimpijskich łamigłówek to jedno, a uprawianie matematyki na poziomie akademickim to zupełnie co innego.

Ponadto kontrowersje budzi skąpa ilość informacji podanych zarówno przez DeepMind, jak i OpenAI. Pierwszy zdradził jedynie, że wytrenował swój duży model językowy Gemini (konkurent ChatGPT) przy użyciu „nowatorskich technik uczenia przez wzmacnianie” i udostępnił mu zestaw wysokiej jakości rozwiązań zadań matematycznych. OpenAI było jeszcze bardziej lakoniczne, informując tylko, że system wykorzystuje „nowe, eksperymentalne techniki ogólnego przeznaczenia”, które nie są specyficzne dla matematyki. Nie wiemy więc, co dokładnie stoi za tym skokiem „wydajności matematycznej” modeli AI i czy zastosowane nowe metody treningu sprawdzą się w innych dziedzinach.

Obie firmy zapowiadają udostępnienie swoich algorytmów matematykom do testów. Ponadto Google planuje za jakiś czas włączyć Deep Think do subskrypcji AI Ultra (na razie dostępnej tylko w USA w cenie 250 dol. miesięcznie). Dlatego dopiero gdy niezależni badacze będą mogli zweryfikować wyniki modeli i zbadać, jak one działają, dowiemy się, czy mamy do czynienia z przełomem, czy tylko z wyspecjalizowanym narzędziem do konkretnego typu zadań.

Na razie pewne jest jedno: AI już potrafi rozwiązywać zadania matematyczne na poziomie, o którym większość z nas może tylko pomarzyć. Pytanie brzmi, czy ta umiejętność przełoży się na prawdziwy postęp w matematyce, czy będzie „tylko” bardzo zaawansowanym „kalkulatorem”. Zapewne przydatnym, ale nie rewolucjonizującym matematyki.

Reklama

Czytaj także

null
Społeczeństwo

Pomówmy o telefobii. Dlaczego młodzi tak nie lubią dzwonić? Problem widać gołym okiem

Chociaż młodzi niemal rodzą się ze smartfonem w ręku, zwykła rozmowa telefoniczna coraz częściej budzi w nich niechęć czy wręcz lęk.

Joanna Podgórska
07.12.2025
Reklama