Przejdź do treści
Reklama
Reklama
Nauka

Czy AI odnajdzie się w chaosie SOR-u? Naukowcy właśnie to sprawdzili

Czy AI zastąpi lekarzy na SOR? Czy AI zastąpi lekarzy na SOR? Gorodenkoff / Shutterstock
Sztuczna inteligencja wykazuje zaskakującą dwoistość: z jednej strony pokonuje doświadczonych medyków w diagnozowaniu pacjentów, a z drugiej potyka się na banalnym zliczaniu szpitalnych statystyk.

Ci, którzy obejrzeli świetny serial „The Pitt”, wiedzą, że szpitale muszą na bieżąco ewidencjonować, ilu mają pacjentów i kogo właśnie przyjęto. Dziś uzyskiwaniem takich informacji z systemów komputerowych zajmują się analitycy danych, co zabiera cenny czas, zwłaszcza gdy personel musi natychmiast uzyskać konkretne informacje. Proces ten miały znacznie przyspieszyć duże modele językowe (LLM), takie jak GPT-4o czy Llama. Pozwalałyby bowiem zadawać pytania zwykłym językiem. Zespół amerykańskich badaczy postanowił sprawdzić, czy rzeczywiście jest to możliwe, a swoje wyniki opublikował na łamach najnowszego wydania „PLOS Digital Health”.

Czytaj także: AI tworzy przeglądy specjalistycznej literatury lepiej niż naukowcy

AI nie do wszystkiego

Naukowcy przetestowali dziewięć LLM-ów na dwóch podstawowych zadaniach administracyjnych: zliczaniu pacjentów spełniających określone kryterium oraz wyszukiwaniu tych, którzy spełniają kilka kryteriów jednocześnie. Dane pochodziły z losowej próby 50 tys. wizyt na izbach przyjęć siedmiu nowojorskich szpitali. Tabele były zaś znacznie mniejsze niż rzeczywiste bazy szpitalne. Łącznie naukowcy zadali modelom prawie 33 tys. pytań. I okazało się, że nawet proste pytanie, np. „ilu pacjentów w tej tabeli zostało przyjętych?”, przynosiło równie rozczarowujące odpowiedzi w przypadku wszystkich algorytmów. Nawet zastosowanie tzw. techniki łańcucha myśli (chain-of-thought), w której model jest proszony o pokazanie kolejnych kroków rozumowania, jedynie umiarkowanie poprawiało kiepskie wyniki.

Sytuacja uległa znacznej poprawie dopiero wtedy, gdy badacze zastosowali podejście oparte na narzędziach: modele poproszono o wygenerowanie kodu komputerowego w języku Python, który następnie uruchamiano, by uzyskać odpowiedzi. Najlepsze algorytmy, takie jak GPT-4o i Qwen-2.5-72B, osiągnęły wówczas niemal bezbłędne wyniki. Jednak te słabsze, w których postawiono na błyskawiczne tempo pracy, wciąż zawodziły, gubiąc się w poleceniach i generując całkowicie nieczytelne zestawienia. Testowane LLM-y nie nadają się zatem do samodzielnego użytku w szpitalach, nawet w przypadku najmniej skomplikowanych zadań administracyjnych w warunkach klinicznych. Praca na ustrukturyzowanych danych prawdopodobnie będzie wymagać hybrydowego podejścia, w którym sztuczna inteligencja nie liczy sama, lecz sięga po wsparcie klasycznych programów komputerowych.

Triaż w wersji AI

Co ciekawe, również inna grupa naukowców przetestowała LLM-y, głównie model o1-preview od OpenAI, ale obsadzając je w roli lekarza na SOR-ze (a wyniki opublikowało niedawno „Science”). W tym celu przeprowadzono aż sześć zróżnicowanych eksperymentów. Najważniejszy okazał się test wykorzystujący zanonimizowane dane kilkudziesięciu pacjentów z oddziału ratunkowego jednego z bostońskich szpitali. Eksperci oceniali diagnozy postawione przez dwóch lekarzy oraz AI, ale nie wiedzieli, czy ich autorem jest człowiek, czy maszyna. Wynik: o1 pokonał zarówno wcześniejsze modele swojej firmy, jak i dwóch doświadczonych specjalistów.

Przewaga algorytmu była najbardziej widoczna na początkowym etapie selekcji medycznej (triażu), gdy decyzje trzeba podejmować bardzo szybko, dysponując zaledwie wycinkiem informacji. Model potrafił bowiem umiejętnie łączyć rozproszone fragmenty nieustrukturyzowanych danych z dokumentacji medycznej. Również w testach z wykorzystaniem specjalnej edukacyjnej platformy (na której lekarze ćwiczą wnioskowanie kliniczne, prowadząc symulowane konsultacje z wirtualnymi pacjentami) o1 osiągnął bardzo wyraźną przewagę. Zdobył mianowicie maksymalną liczbę punktów w 78 z 80 przypadków. Dla porównania: model GPT-4 osiągnął komplet w 47, lekarze specjaliści w 28, a rezydenci tylko w 16.

Czytaj także: Jak szybko sztuczna inteligencja użyłaby broni jądrowej?

Te imponujące statystyki nie oznaczają jednak, że algorytmy AI są już gotowe do samodzielnego zajmowania się chorymi, a udział lekarzy w procesie diagnostycznym zostanie znacznie ograniczony. Bez przekonujących dowodów na to, że technologia ta faktycznie poprawia jakość opieki i bezpieczeństwo pacjentów w codziennej pracy szpitali, algorytmy AI wciąż będą uznawane za niegotowe do powszechnych zastosowań klinicznych. Aczkolwiek w przyszłości mogą okazać się bardzo pomocne przeciążonemu pracą personelowi szpitalnych oddziałów ratunkowych, takich jak ukazany w serialu „The Pitt”.

Reklama

Czytaj także

null
Świat

Gen. Dan Caine ma najtrudniejsze zadanie na świecie. Kim jest naczelny doradca wojskowy Trumpa?

Generał Dan Caine musi przekładać strumień świadomości prezydenta USA na precyzyjne działania zbrojne.

Marek Świerczyński
15.05.2026
Reklama

Ta strona do poprawnego działania wymaga włączenia mechanizmu "ciasteczek" w przeglądarce.

Powrót na stronę główną