Czy AI odnajdzie się w chaosie SOR-u? Naukowcy właśnie to sprawdzili

17 maja 2026

Czy AI zastąpi lekarzy na SOR? Gorodenkoff / Shutterstock

Sztuczna inteligencja wykazuje zaskakującą dwoistość: z jednej strony pokonuje doświadczonych medyków w diagnozowaniu pacjentów, a z drugiej potyka się na banalnym zliczaniu szpitalnych statystyk.

Ci, którzy obejrzeli świetny serial „The Pitt”, wiedzą, że szpitale muszą na bieżąco ewidencjonować, ilu mają pacjentów i kogo właśnie przyjęto. Dziś uzyskiwaniem takich informacji z systemów komputerowych zajmują się analitycy danych, co zabiera cenny czas, zwłaszcza gdy personel musi natychmiast uzyskać konkretne informacje. Proces ten miały znacznie przyspieszyć duże modele językowe (LLM), takie jak GPT-4o czy Llama. Pozwalałyby bowiem zadawać pytania zwykłym językiem. Zespół amerykańskich badaczy postanowił sprawdzić, czy rzeczywiście jest to możliwe, a swoje wyniki opublikował na łamach najnowszego wydania „PLOS Digital Health”.

Czytaj także: AI tworzy przeglądy specjalistycznej literatury lepiej niż naukowcy

AI nie do wszystkiego

Naukowcy przetestowali dziewięć LLM-ów na dwóch podstawowych zadaniach administracyjnych: zliczaniu pacjentów spełniających określone kryterium oraz wyszukiwaniu tych, którzy spełniają kilka kryteriów jednocześnie. Dane pochodziły z losowej próby 50 tys. wizyt na izbach przyjęć siedmiu nowojorskich szpitali. Tabele były zaś znacznie mniejsze niż rzeczywiste bazy szpitalne. Łącznie naukowcy zadali modelom prawie 33 tys. pytań. I okazało się, że nawet proste pytanie, np. „ilu pacjentów w tej tabeli zostało przyjętych?”, przynosiło równie rozczarowujące odpowiedzi w przypadku wszystkich algorytmów. Nawet zastosowanie tzw. techniki łańcucha myśli (chain-of-thought), w której model jest proszony o pokazanie kolejnych kroków rozumowania, jedynie umiarkowanie poprawiało kiepskie wyniki.

Sytuacja uległa znacznej poprawie dopiero wtedy, gdy badacze zastosowali podejście oparte na narzędziach: modele poproszono o wygenerowanie kodu komputerowego w języku Python, który następnie uruchamiano, by uzyskać odpowiedzi. Najlepsze algorytmy, takie jak GPT-4o i Qwen-2.5-72B, osiągnęły wówczas niemal bezbłędne wyniki. Jednak te słabsze, w których postawiono na błyskawiczne tempo pracy, wciąż zawodziły, gubiąc się w poleceniach i generując całkowicie nieczytelne zestawienia. Testowane LLM-y nie nadają się zatem do samodzielnego użytku w szpitalach, nawet w przypadku najmniej skomplikowanych zadań administracyjnych w warunkach klinicznych. Praca na ustrukturyzowanych danych prawdopodobnie będzie wymagać hybrydowego podejścia, w którym sztuczna inteligencja nie liczy sama, lecz sięga po wsparcie klasycznych programów komputerowych.

Triaż w wersji AI

Co ciekawe, również inna grupa naukowców przetestowała LLM-y, głównie model o1-preview od OpenAI, ale obsadzając je w roli lekarza na SOR-ze (a wyniki opublikowało niedawno „Science”). W tym celu przeprowadzono aż sześć zróżnicowanych eksperymentów. Najważniejszy okazał się test wykorzystujący zanonimizowane dane kilkudziesięciu pacjentów z oddziału ratunkowego jednego z bostońskich szpitali. Eksperci oceniali diagnozy postawione przez dwóch lekarzy oraz AI, ale nie wiedzieli, czy ich autorem jest człowiek, czy maszyna. Wynik: o1 pokonał zarówno wcześniejsze modele swojej firmy, jak i dwóch doświadczonych specjalistów.

Przewaga algorytmu była najbardziej widoczna na początkowym etapie selekcji medycznej (triażu), gdy decyzje trzeba podejmować bardzo szybko, dysponując zaledwie wycinkiem informacji. Model potrafił bowiem umiejętnie łączyć rozproszone fragmenty nieustrukturyzowanych danych z dokumentacji medycznej. Również w testach z wykorzystaniem specjalnej edukacyjnej platformy (na której lekarze ćwiczą wnioskowanie kliniczne, prowadząc symulowane konsultacje z wirtualnymi pacjentami) o1 osiągnął bardzo wyraźną przewagę. Zdobył mianowicie maksymalną liczbę punktów w 78 z 80 przypadków. Dla porównania: model GPT-4 osiągnął komplet w 47, lekarze specjaliści w 28, a rezydenci tylko w 16.

Czytaj także: Jak szybko sztuczna inteligencja użyłaby broni jądrowej?

Te imponujące statystyki nie oznaczają jednak, że algorytmy AI są już gotowe do samodzielnego zajmowania się chorymi, a udział lekarzy w procesie diagnostycznym zostanie znacznie ograniczony. Bez przekonujących dowodów na to, że technologia ta faktycznie poprawia jakość opieki i bezpieczeństwo pacjentów w codziennej pracy szpitali, algorytmy AI wciąż będą uznawane za niegotowe do powszechnych zastosowań klinicznych. Aczkolwiek w przyszłości mogą okazać się bardzo pomocne przeciążonemu pracą personelowi szpitalnych oddziałów ratunkowych, takich jak ukazany w serialu „The Pitt”.

Marcin Rotkiewicz

Absolwent dziennikarstwa i filozofii na Uniwersytecie Warszawskim oraz stypendysta Knight Science Journalism Program w Massachusetts Institute of Technology. Popularyzuje wiedzę przede wszystkim na temat biotechnologii, ewolucji naczelnych i neuronauki. Interesuje się również teoriami pseudonaukowymi i spiskowymi. Dwukrotnie nominowany do Nagrody Grand Press w kategoriach dziennikarstwo specjalistyczne i publicystyka. Autor wywiadów rzek: z prof. Jerzym Vetulanim „Mózg i błazen” oraz z prof. Bogdanem Wojciszke „Homo nie całkiem sapiens”. Napisał również „W królestwie Monszatana. GMO, gluten i szczepionki”, za którą otrzymał nagrodę redaktorów portalu Mądre Książki. Dziennikarz działu Nauka/projektpulsar.pl.

Czy AI odnajdzie się w chaosie SOR-u? Naukowcy właśnie to sprawdzili

AI nie do wszystkiego

Triaż w wersji AI

Marcin Rotkiewicz

Najczęściej czytane w sekcji Nauka

Humbak zaczyna swoją podróż. Samodzielnie wpłynął na barkę, w ekipie ratowników euforia

Humbak Timmy już na wolności, „popłynął we właściwym kierunku”. Czy poradzi sobie na otwartych wodach?

Żegnaj, Timmy! Smutne losy młodego humbaka z Wismaru znalazły swój finał. Czy czegoś nas nauczą?

Timmy nie żyje. Spór o ratowanie humbaka, którego historia poruszyła świat

Epidemia na Atlantyku. Hantawirus na pokładzie luksusowego statku zamienił rejs w kwarantannę

Czytaj także

Gen. Dan Caine ma najtrudniejsze zadanie na świecie. Kim jest naczelny doradca wojskowy Trumpa?

Egzamin z polskiego dla ósmoklasistów dzieli dzieci. Takiej segregacji nie ma nigdzie indziej

Pokolenie NoLo. Im alkohol nie jest potrzebny. Coś wyraźnie się zmienia, ale z czego to wynika?

Obóz władzy koncertowo położył sprawę TK kosztem czwórki sędziów. Dlaczego sobie to robi?

Przyczajony Xi, niestabilny Trump. Chiny uważają, że Zachód ma „słabe kości”. I ogrywają USA

Łomiarz: człowiek, który nienawidzi kobiet. Nadal budzi strach. Czy należy go zamknąć?

Choroby rzadkie: mamy bałagan, to jak tułaczka w labiryncie. System może szybko się zapchać

Dobre wieści dla łysiejących! Nowa tabletka ma zatrzymać wypadanie włosów. Ale nie załatwi wszystkiego

Polski ziemniak się popsuł? Zachód go nie chce. Rolnicze lobby sprzedaje nam wielką ściemę

Setka dzieci Xu Bo. Chińscy miliarderzy seryjnie zamawiają je w USA. Z dostawą do domu

Wakacje między wojnami. Czas zmienić plany. Od czego teraz zacząć planowanie urlopu?