Przejdź do treści
Reklama
Reklama
Nauka

AI tworzy przeglądy specjalistycznej literatury lepiej niż naukowcy. I zawstydza komercyjne giganty

Haymo Joseph / Smarterpix/PantherMedia
OpenScholar to otwarte narzędzie, które nie tylko znacznie redukuje halucynacje, ale też przewyższa jakością odpowiedzi udzielane przez ludzkich ekspertów.

Współczesna nauka mierzy się m.in. z klęską urodzaju. Aby odkrywać nowe kierunki badań, udoskonalać metodologie i podejmować decyzje oparte na dowodach, konieczna jest precyzyjna orientacja w gąszczu tysięcy nowych artykułów. A nawet doświadczeni badacze nie nadążają z ich lekturą.

Dlatego zespół naukowców z kilku amerykańskich uniwersytetów i Allen Institute for AI postanowił stworzyć narzędzie, które przyjdzie uczonym z pomocą. Szczegóły jego działania badacze opisali na łamach najnowszego wydania „Nature”.

Co potrafi OpenScholar

Nazwano je OpenScholar i jest pierwszym w pełni otwartym modelem językowym wspomaganym wyszukiwaniem (ang. retrieval-augmented language model), zaprojektowanym specjalnie do syntezy literatury naukowej. Jego serce to baza danych zawierająca 45 mln specjalistycznych artykułów (typu open access, czyli dostępnych bez opłat) podzielonych na 236 mln krótkich fragmentów zindeksowanych w sposób umożliwiający błyskawiczne przeszukiwanie (to największy tego typu zasób dostępny publicznie).

Gdy użytkownik zada pytanie, system najpierw przeczesuje tę bazę za pomocą wyspecjalizowanych algorytmów, a następnie zawęża wyniki, by na końcu wygenerować odpowiedź z przypisami kierującymi do konkretnych fragmentów publikacji naukowych.

Kluczową innowacją jest specjalny mechanizm samokorekty. Model tworzy wstępną odpowiedź, potem sam generuje informację zwrotną wskazującą braki lub nieścisłości, a następnie wielokrotnie udoskonala tekst. Jeśli w trakcie tego procesu wykryje luki w wiedzy, automatycznie uruchamia dodatkowe wyszukiwanie. A na końcu weryfikuje, czy każde twierdzenie wymagające uzasadnienia rzeczywiście ma odpowiednie źródło.

Czytaj też: AI sprawdziła pół miliarda związków chemicznych w jeden dzień. To może być przełom

OpenScholar tak nie zmyśla

Aby rzetelnie ocenić możliwości swojego narzędzia, twórcy OpenScholar musieli stworzyć zupełnie nowy test. Dotychczasowe skupiały się bowiem na prostych pytaniach wielokrotnego wyboru lub analizie pojedynczych dokumentów, co nie oddaje złożoności prawdziwej pracy naukowej. Opracowano więc ScholarQABench – pierwszy wielodziedzinowy zestaw testowy do oceny syntezy literatury. Składa się z blisko 3 tys. pytań i ponad 200 długich, eksperckich odpowiedzi z zakresu informatyki, fizyki, neuronauki i biomedycyny. Pytania i odpowiedzi zostały przygotowane przez doktorantów i postdoków, co miało odzwierciedlać rzeczywiste standardy przeglądów literatury.

Wyniki testów za pomocą ScholarQABench okazały się bardzo obiecujące. Model OpenScholar-8B – czyli mniejsza, kompaktowa wersja – okazał się lepszy niż komercyjny GPT-4o o 6,1 pkt proc. oraz darmowy PaperQA2 (specjalny program do podsumowywania artykułów naukowych) o 5,5 pkt proc. pod względem poprawności odpowiedzi w zadaniach wymagających syntezy wielu publikacji. Co jeszcze bardziej uderzające: GPT-4o bez włączonego wspomagania wyszukiwaniem informacji w internecie zmyślał cytaty w 78–90 proc. przypadków, podczas gdy OpenScholar osiągnął dokładność porównywalną z ludzkimi ekspertami.

Również imponujące okazały się wyniki ślepych testów z udziałem ludzi. Eksperci z poszczególnych dziedzin nauki oceniali odpowiedzi wygenerowane przez AI oraz te napisane przez innych naukowców. Wersja OpenScholar oparta na modelu 8B była preferowana częściej niż odpowiedzi ludzkie w 51 proc. przypadków. Gdy system sparowano z „silnikiem” GPT-4o (jako OpenScholar-GPT-4o), wskaźnik ten wzrósł aż do 70 proc. Dla porównania, „goły” GPT-4o wygrywał z ludźmi zaledwie w 32 proc. przypadków.

Czytaj też: Nowy model AI diagnozuje choroby płuc trafniej niż lekarze

Wsparcie dla ludzkiego intelektu

Sukces OpenScholar wynikał głównie z tego, że model potrafił dostarczyć znacznie szerszy i bardziej pogłębiony zakres informacji, zachowując przy tym rygor faktograficzny, i to nawet jeśli ustępował konkurencji pod względem płynności języka. Gdy procedurę wyszukiwania i weryfikacji danych z OpenScholar zastosowano w komercyjnym modelu GPT-4o, jego wyniki poprawiły się aż o 12 pkt proc. To dowód na to, że o sukcesie nie decyduje sama „moc” modelu, lecz sposób, w jaki korzysta on ze źródeł naukowych.

Mimo spektakularnych rezultatów twórcy OpenScholar zachowują powściągliwość i wskazują na ograniczenia swojego narzędzia. Choć drastycznie redukuje ono liczbę błędów, nie jest od nich całkowicie wolne. Zdarza mu się bowiem generować nieścisłości faktograficzne, szczególnie w wersji opartej na kompaktowym modelu 8B, który ma mniejsze zdolności w zakresie podążania za skomplikowanymi instrukcjami. Eksperci biorący udział w ewaluacji narzędzia zauważyli również, że nie zawsze dociera ono do najbardziej reprezentatywnych lub „kanonicznych” prac dla danego zagadnienia, co może wynikać z ograniczeń samej procedury wyszukiwania.

Istotną barierą pozostaje bowiem dostęp do danych. OpenScholar DataStore opiera się na publikacjach open-access. Oznacza to, że system nie ma wglądu w miliony artykułów ukrytych za paywallami wielkich wydawnictw naukowych, co w niektórych dyscyplinach może prowadzić do pominięcia kluczowych badań. Kwestie praw autorskich i licencjonowania treści do trenowania oraz działania takich systemów pozostają przedmiotem gorącej debaty. Dlatego twórcy OpenScholar podkreślają: narzędzia oparte na dużych modelach językowych nie mogą w pełni zautomatyzować syntezy literatury naukowej, a jedynie służyć jako potężne wsparcie dla ludzkiego intelektu.

Reklama

Czytaj także

null
Świat

Lęk przed drugą Jałtą. Trzech drapieżców gra już nowy koncert mocarstw? Trudny czas dla Europy i Polski

Amerykańska interwencja w Wenezueli i zapowiedzi Donalda Trumpa o zagarnięciu Grenlandii zapowiadają inny porządek świata. Fatalny dla takich krajów jak Polska.

Tomasz Zalewski z Waszyngtonu
13.01.2026
Reklama

Ta strona do poprawnego działania wymaga włączenia mechanizmu "ciasteczek" w przeglądarce.

Powrót na stronę główną