To jest lawina. Jak sztuczna inteligencja demaskuje drapieżne czasopisma naukowe
Publikowanie przez badaczy specjalistycznych artykułów w modelu tzw. otwartego dostępu (ang. open-access, czyli darmowy dla wszystkich zainteresowanych) miało zmienić naukę, realizując ideę swobodnego korzystania z wiedzy. Niestety, okazało się, że stworzyło równocześnie pole do nadużyć. W środowisku akademickim panuje od lat ogromna presja znana jako „publikuj albo giń” – kariera naukowca w ogromnym stopniu zależy od liczby jego artykułów.
Sytuację tę wykorzystują tzw. drapieżni wydawcy (ang. predatory publishing). Tworzą oni czasopisma tylko z pozoru wyglądające na naukowe, a w rzeczywistości będące wyłącznie maszynkami do zarabiania pieniędzy. W modelu open-access to autorzy, a nie czytelnicy, wnoszą opłaty za umieszczenie artykułu naukowego w danym periodyku.
Czytaj też: Czasopisma drapieżne atakują świat nauki. Wydrukują prawie wszystko
Zalew drapieżnych czasopism
Tylko że kluczowym elementem prawidłowego procesu publikacji jest recenzja naukowa (ang. peer review). Artykuł, przed wydrukowaniem, zostaje anonimowo oceniony przez innych, niezależnych ekspertów z tej samej dziedziny. To rodzaj „kontroli jakości”, która ma wyłapać błędy i zapewnić wiarygodność badań. Natomiast drapieżni wydawcy obiecują autorom błyskawiczną publikację właśnie dlatego, że niemal całkowicie pomijają ten kluczowy i czasochłonny etap. W praktyce jest ona bowiem czystą formalnością lub nie ma jej wcale, a artykuł zostaje przyjęty, o ile tylko autor wniesie opłatę.
Taka działalność stanowi poważne zagrożenie dla jakości i wiarygodności modelu „otwartego odstępu”, powodując zalew literatury naukowej bezwartościowymi lub niezweryfikowanymi treściami. A problem drapieżnych wydawców narasta. Liczba publikacji w tego typu czasopismach rośnie z roku na rok, podobnie jak cytowań (chodzi o odwołania do ich treści w pracach innych naukowców).
Co więcej, granty z największych instytucji finansujących badania coraz częściej pojawiają się w podziękowaniach w artykułach zamieszczonych na łamach tego typu periodyków. Ponadto szczególnie narażone na ten proceder stały się kraje rozwijające się – w Iranie, Indiach czy Brazylii odsetek publikacji w drapieżnych czasopismach okazuje się znacznie wyższy niż w USA czy Europie Zachodniej.
Czytaj też: Wszyscy jesteśmy drapieżnikami! Te czasopisma nauce nie szkodzą. Polemika
AI namierza wątpliwe czasopisma
Demaskowanie tego typu periodyków nie jest łatwe. „Ręczne” weryfikowanie tysięcy czasopism trwa długo, a nieuczciwi wydawcy po ujawnieniu ich procederu szybko zmieniają nazwę i wygląd strony internetowej, by kontynuować zyskowną działalność. Dlatego amerykańscy i chińscy naukowcy stworzyli system oparty na sztucznej inteligencji, który nauczył się odróżniać rzetelne czasopisma od tych o niskich standardach – można przeczytać w najnowszym wydaniu prestiżowego „Science Advances”. Jako wzorzec posłużyły mu dane z Directory of Open Access Journals (DOAJ) – szanowanej darmowej bazy zweryfikowanych periodyków o otwartym dostępie.
Specjalny algorytm analizował każdą publikację pod kątem dziesiątek cech. Najważniejszym wskaźnikiem okazała się bibliometria, czyli analiza danych o cytowaniach i autorach – na ich podstawie AI nauczyła się rozpoznawać sygnały ostrzegawcze. Wątpliwe czasopisma często publikują prace osób o niewielkim dorobku, co odzwierciedla niski tzw. wskaźnik Hirscha (h-index) – to bazująca na cytowaniach publikacji danego badacza miara jego prestiżu i aktywności zawodowej.
Innym niepokojącym zjawiskiem jest wysoki odsetek autocytowań, czyli sytuacji, gdy autorzy nagminnie powołują się na swoje wcześniejsze prace, a nie innych autorów. Czerwona lampka zapalała się AI również wtedy, gdy pojawiała się podejrzanie duża liczba afiliacji, czyli uniwersytetów i instytutów, z którymi rzekomo związani są autorzy danej pracy. Połączenie analizy tych cech z oceną treści i wyglądu strony internetowej periodyku pozwoliło osiągnąć modelowi (bazującemu na uczeniu maszynowym i sztucznych sieciach neuronowych) wysoką skuteczność. Oceny generowane przez AI w dużym stopniu pokrywały się bowiem z werdyktami ludzkich ekspertów.
Czytaj też: Drapieżna papiernia. Uczelnie stąpają po polu minowym. Na łapu-capu się tego nie naprawi
AI nieomylna nie jest
Po fazie treningu model został przetestowany na ogromnej bazie danych Unpaywall, która gromadzi informacje o milionach darmowych artykułów naukowych z całego świata. Wyniki okazały się alarmujące. System zidentyfikował ponad tysiąc nieznanych dotąd, potencjalnie drapieżnych czasopism. Łącznie opublikowały one ponad 100 tys. artykułów, które cytowano miliony razy. Co dość szokujące, w publikacjach tych pojawiały się podziękowania dla największych agencji finansujących naukę, w tym amerykańskich Narodowych Instytutów Zdrowia (NIH). Publiczne pieniądze, przeznaczone na rzetelne badania, mogą być w jakimś stopniu marnowane na opłaty wnoszone w oszukańczych periodykach.
Aczkolwiek autorzy badania wyraźnie podkreślają w swojej pracy, że ich narzędzie nie jest nieomylne. Przy ustalonym poziomie pewności, jakiego AI potrzebuje do oznaczenia czasopisma jako podejrzanego, wskaźnik fałszywych alarmów wynosi ok. 24 proc. Zatem niemal co czwarty oflagowany tytuł mógł w rzeczywistości być rzetelny. Algorytm miał też problemy z oceną małych, niszowych czasopism wydawanych przez towarzystwa naukowe. Dlatego jego twórcy zaznaczają, że AI powinna służyć jako system wczesnego ostrzegania, a ostateczna decyzja zawsze należy do człowieka.
Rozwój tego typu narzędzi opartych na sztucznej inteligencji może okazać się kluczowy dla zachowania integralności nauki. Tradycyjne metody weryfikacji nie nadążają bowiem za lawinowo rosnącą liczbą nowych czasopism publikujących w internecie, więc dzięki AI naukowcy i instytucje finansujące badania otrzymają narzędzie bardzo pomocne w podejmowaniu świadomych decyzji. To zresztą nie tylko kwestia marnowania środków publicznych, gdyż chodzi o wiarygodność całego systemu komunikacji naukowej.