Nauka

Excel szkodzi genetyce. Jak program komputerowy fałszuje wyniki badań

Thompson Rivers University / Flickr CC by 2.0
Prawie co piąta z ponad trzech tysięcy przeanalizowanych jak dotąd prac badawczych z genetyki może być nieważna. Dlaczego?

O chwytliwe nazwy w biologii nie jest łatwo. Człowiek składa się z ponad dwudziestu tysięcy genów i jeszcze większej liczby białek. Do tej plejady złożoności włączają się inne gatunki organizmów, u których analogiczny produkt metabolizmu może nazywać się inaczej niż u ludzi. Oznacza to, że uniknięcie wieloczłonowych nazw jest w biologii absolutnie niemożliwe.

Dlatego naukowcy stosują formy skrótowe, przy czym im łatwiej jest taką skróconą nazwę wymówić, tym lepiej. Dlatego przydzielenie skrótu MARCH1 jednemu z białek przytwierdzających się do błon komórki pozwala szybko zakomunikować, o jakiej cząsteczce się myśli. A do tego po angielsku „March” znaczy „marzec”, co jeszcze bardziej wszystko ułatwia.

Okazało się jednak, że stosowanie łatwych do zapamiętana skrótów może być sporym utrapieniem. Mark Ziemann i dwójka innych australijskich badaczy wykazali, że prosta funkcja Excela, która zamienia słowne nazwy miesięcy na dane liczbowe, mogła mocno zniekształcić wyniki zamieszczone w 704 pracach badawczych opublikowanych w osiemnastu najbardziej renomowanych pismach na przestrzeni ostatnich dziesięciu lat. Odkrycie zostało opisane w magazynie „Genome Biology”.

Badacze stwierdzili, że skróty takie jak wspomniany właśnie MARCH1 czy SEPT2 („September” to po angielsku „wrzesień”) bywały błędnie traktowane przez program jako daty i adekwatnie modyfikowane. W ten sposób SEPT2 stawał się na przykład drugim września 2006 roku, a na skutek tego dane dotyczące feralnego genu nie były uwzględniane podczas testów statystycznych…

O dziwo pierwsze doniesienia, że taki problem może wystąpić pojawiły się dużo wcześniej. Jak zauważa dr Kamil Jastrzębski z Międzynarodowego Instytutu Biologii Molekularnej i Komórkowej w Warszawie, już w połowie poprzedniej dekady na łamach „BMC Bioinformatics” ostrzegano przed używaniem Excela do analizy niektórych danych genetycznych.

To nie zahamowało jednak rosnącej w kolejnych latach tendencji do popełniania błędów w nazwach niektórych genów czy białek. Dopiero teraz skala ujawnionych pomyłek dała do myślenia. I nie chodzi tu nawet o konkretny szereg prac badawczych, na który wpłynie publikacja z „Genome Biology”, bo większość tych usterek powinno udać się ostatecznie poprawić. Niepokoi bardziej to, że podobne niedopatrzenia mogą przez długi czas pozostawać bez reakcji środowiska naukowego.

Więcej na ten temat
Reklama

Codzienny newsletter „Polityki”. Tylko ważne tematy

Na podany adres wysłaliśmy wiadomość potwierdzającą.
By dokończyć proces sprawdź swoją skrzynkę pocztową i kliknij zawarty w niej link.

Informacja o RODO

Polityka RODO

  • Informujemy, że administratorem danych osobowych jest Polityka Sp. z o.o. SKA z siedzibą w Warszawie 02-309, przy ul. Słupeckiej 6. Przetwarzamy Twoje dane w celu wysyłki newslettera (podstawa przetwarzania danych to konieczność przetwarzania danych w celu realizacji umowy).
  • Twoje dane będą przetwarzane do chwili ew. rezygnacji z otrzymywania newslettera, a po tym czasie mogą być przetwarzane przez okres przedawnienia ewentualnych roszczeń.
  • Podanie przez Ciebie danych jest dobrowolne, ale konieczne do tego, żeby zamówić nasz newsletter.
  • Masz prawo do żądania dostępu do swoich danych osobowych, ich sprostowania, usunięcia lub ograniczenia przetwarzania, a także prawo wniesienia sprzeciwu wobec przetwarzania, a także prawo do przenoszenia swoich danych oraz wniesienia skargi do organu nadzorczego.

Czytaj także

Nauka

Skąd dramatyczne wahania liczby infekcji covid-19?

Czym tłumaczyć gwałtowny spadek raportowanych zakażeń koronawirusem? Rozmawiamy z dr. Franciszkiem Rakowskim z ICM, który modeluje przebieg pandemii od samego jej początku.

Karol Jałochowski
26.11.2020
Reklama

Ta strona do poprawnego działania wymaga włączenia mechanizmu "ciasteczek" w przeglądarce.

Powrót na stronę główną