Excel szkodzi genetyce. Jak program komputerowy fałszuje wyniki badań
Prawie co piąta z ponad trzech tysięcy przeanalizowanych jak dotąd prac badawczych z genetyki może być nieważna. Dlaczego?
Thompson Rivers University/Flickr CC by 2.0

O chwytliwe nazwy w biologii nie jest łatwo. Człowiek składa się z ponad dwudziestu tysięcy genów i jeszcze większej liczby białek. Do tej plejady złożoności włączają się inne gatunki organizmów, u których analogiczny produkt metabolizmu może nazywać się inaczej niż u ludzi. Oznacza to, że uniknięcie wieloczłonowych nazw jest w biologii absolutnie niemożliwe.

Dlatego naukowcy stosują formy skrótowe, przy czym im łatwiej jest taką skróconą nazwę wymówić, tym lepiej. Dlatego przydzielenie skrótu MARCH1 jednemu z białek przytwierdzających się do błon komórki pozwala szybko zakomunikować, o jakiej cząsteczce się myśli. A do tego po angielsku „March” znaczy „marzec”, co jeszcze bardziej wszystko ułatwia.

Okazało się jednak, że stosowanie łatwych do zapamiętana skrótów może być sporym utrapieniem. Mark Ziemann i dwójka innych australijskich badaczy wykazali, że prosta funkcja Excela, która zamienia słowne nazwy miesięcy na dane liczbowe, mogła mocno zniekształcić wyniki zamieszczone w 704 pracach badawczych opublikowanych w osiemnastu najbardziej renomowanych pismach na przestrzeni ostatnich dziesięciu lat. Odkrycie zostało opisane w magazynie „Genome Biology”.

Badacze stwierdzili, że skróty takie jak wspomniany właśnie MARCH1 czy SEPT2 („September” to po angielsku „wrzesień”) bywały błędnie traktowane przez program jako daty i adekwatnie modyfikowane. W ten sposób SEPT2 stawał się na przykład drugim września 2006 roku, a na skutek tego dane dotyczące feralnego genu nie były uwzględniane podczas testów statystycznych…

O dziwo pierwsze doniesienia, że taki problem może wystąpić pojawiły się dużo wcześniej. Jak zauważa dr Kamil Jastrzębski z Międzynarodowego Instytutu Biologii Molekularnej i Komórkowej w Warszawie, już w połowie poprzedniej dekady na łamach „BMC Bioinformatics” ostrzegano przed używaniem Excela do analizy niektórych danych genetycznych.

To nie zahamowało jednak rosnącej w kolejnych latach tendencji do popełniania błędów w nazwach niektórych genów czy białek. Dopiero teraz skala ujawnionych pomyłek dała do myślenia. I nie chodzi tu nawet o konkretny szereg prac badawczych, na który wpłynie publikacja z „Genome Biology”, bo większość tych usterek powinno udać się ostatecznie poprawić. Niepokoi bardziej to, że podobne niedopatrzenia mogą przez długi czas pozostawać bez reakcji środowiska naukowego.

Czytaj także

Aktualności, komentarze

W nowej POLITYCE

Zobacz pełny spis treści »

Poleć stronę

Zamknij
Facebook Twitter Google+ Wykop Poleć Skomentuj