Czego się możemy dowiedzieć ze statystyki?

Bez wariancji nie da się żyć
Rozmowa z laureatem Nagrody Naukowej POLITYKI Przemysławem Bieckiem, statystykiem, który poszukuje ukrytych prawidłowości w otaczającym nas morzu informacji
Dr Przemysław Biecki uważa, że statystyka obliczeniowa będzie w przyszłości jedną z ważniejszych profesji świata.
Tdeusz Późniaka/Polityka

Dr Przemysław Biecki uważa, że statystyka obliczeniowa będzie w przyszłości jedną z ważniejszych profesji świata.

Karol Jałochowski: – Proszę powiedzieć coś, co nie odstraszy czytelnika od słów „statystyka obliczeniowa”.
Przemysław Biecek: – Hal Varian, główny ekonomista Google’a, powiedział niedawno, że za 10 lat najbardziej seksownym zawodem świata będzie profesja statystyka. I myślał oczywiście o statystyce obliczeniowej.

Tylko dlaczego?
Dostęp do danych jest coraz łatwiejszy. Poszukiwanie wśród nich użytecznych i nowych prawidłowości to fantastyczna gra ze światem, rozrywka intelektualna. Przykładowo, w prowadzonym od 11 lat badaniu Diagnoza Społeczna zbierane i udostępniane są dane o ponad 50 tys. Polaków – o tym, jak żyją, co myślą, jak się czują, o czym marzą, na czym im zależy. W sumie pod uwagę bierze się ponad 2 tys. cech każdego badanego. Z takiego zbioru danych można wywnioskować, jak i dlaczego zmienia się system wartości społeczeństwa, jak kształtują się dochody, poglądy polityczne, wykształcenie. Jaka praca może być ciekawsza? Czy to zatrzyma czytelnika?

Zobaczymy...
Dam więc przykłady innych zastosowań statystyki obliczeniowej. Weźmy choćby skonstruowany niedawno przez IBM superkomputer Watson, który wygrał w grę Jeopardy (w Polsce znaną pod nazwą Va Banque) z najlepszymi z ludzkich graczy. Wykorzystywał jednocześnie wiele różnych opartych na statystyce algorytmów przetwarzania tekstu i informacji. Inny przykład dotyczy naszego genomu. W uproszczeniu, przypomina on wyraz składający się z trzech miliardów liter. Aby go odczytać, trzeba ułożyć kilkadziesiąt lub kilkaset miliardów krótkich fragmentów. Fragmenty te zachodzą częściowo na siebie, dzięki czemu możemy połączyć je w dłuższe odcinki, a następnie w całość. Bez komputerów jest to absolutnie niemożliwe.

Początki statystyki obliczeniowej wiążą się z rewolucją informatyczną?
Zdecydowanie tak, bo im więcej danych potrafimy zgromadzić, tym bardziej potrzebujemy statystyki obliczeniowej. Istotne były na pewno badania Stanisława Ulama i Johna von Neumanna z lat 50. Ci pionierzy statystyki obliczeniowej zaprojektowali wówczas algorytm Monte Carlo do symulacji reakcji nuklearnych. Dziś jest on wykorzystywany w wielu innych dziedzinach wiedzy – od szacowania rezerw finansowych banku po analizę struktury białek. Można się cofnąć jeszcze o krok, do zbudowanego w latach 40. brytyjskiego komputera COLOSSUS. Służył do łamania szyfrów niemieckich, czyli do wyszukiwania wzorców w zakodowanych tajnych depeszach. Najgwałtowniejszy rozwój statystyki obliczeniowej przypada na ostatnie lata. Ilość danych przyrasta szybciej niż rozwój procesorów do ich analizy.

W nauce zwykle testuje się pojedyncze hipotezy, jedna po drugiej, ale zdaje się, że wy, statystycy, stosujecie też inną metodę – sprawdzacie wiele przypuszczeń jednocześnie.
Komputery pozwalają na automatyzację pracy. Możemy za jednym zamachem testować tysiące hipotez. Robimy tak na przykład porównując ekspresję genów (czyli informację, jak dużo danego genu człowiek ma w komórce) u osób chorych i zdrowych. Każdy z nas ma około 22 tys. genów – grupę osób zdrowych i chorych musimy porównywać pod względem każdego z nich. W najprostszym przypadku mamy do sprawdzenia 22 tys. hipotez. Bez komputera trochę by to trwało.

Metod statystyki obliczeniowej zaczęto w biologii używać na wielką skalę podczas projektu poznania ludzkiego genomu?
Na pewno badania genetyczne są źródłem ogromnej liczby danych, więc nawet jeśli projekt poznania ludzkiego genomu nie wyznaczał dokładnie punktu zero, to był bardzo blisko niego.

Z tym przedsięwzięciem wiązano ogromne nadzieje – tylko częściowo spełnione, bo okazało się, że geny wyrażają swoją obecność w organizmie w sposób niezwykle złożony. Pańska dziedzina pomaga zrozumieć tę złożoność?
Z ludzkim genomem sprawa jest rzeczywiście skomplikowana. Nie możemy w tym przypadku projektować eksperymentów genetycznych, w których bylibyśmy w stanie kontrolować lub redukować źródła zakłóceń, choćby środowiskowych. Ale osiągamy dobre wyniki w bardziej klasycznych problemach – uprawie roślin, hodowli zwierząt. Na przykład w ciągu ostatnich 50 lat wydajność mleczna krów wzrosła trzykrotnie – właśnie dzięki temu, że można badać, modyfikować lub sterować dziedziczeniem odpowiednich genów. Podobnie z kukurydzą, która stała się odporna na mróz, albo z transgenicznymi ogórkami, które zostały wyposażone w geny sprawiające, że są znacznie słodsze niż kiedyś. Cała inżynieria genetyczna opiera się na statystyce obliczeniowej...

...która stoi nieco w cieniu?
Jerzy Spława-Neyman, jeden z największych statystyków, powiedział kiedyś, że statystyka pełni funkcję służebną wobec innych nauk. Gazety donoszą o nowych lekach, lekarzach czy genetykach, którzy odkrywają nowe terapie. Za tymi wynikami stoją statystycy, którzy wspomagają innych naukowców w ich pracy.

Taka sytuacja nie frustruje?
Mnie nie. Taki fach ma inną zaletę. Statystyk nie pracuje samotnie. Musimy współdziałać z lekarzami, genetykami, finansistami, poznajemy inne dziedziny wiedzy. Możemy badać świat w wielu aspektach.

Z gwałtownym wzrostem liczby danych opisujących organizmy żywe mieliśmy do czynienia w połowie XIX w. Jego skutkiem były narodziny współczesnej biologii, systematyki. Czy informacyjna eksplozja, z którą dziś mamy do czynienia, daje początek nowym naukom?
Powstają wręcz setki nowych dziedzin. Weźmy chociażby analizę sieci społecznościowych, takich jak Facebook czy Twitter, która pozwala badać zachowania poszczególnych użytkowników oraz identyfikować osoby mające duży wpływ na swoje otoczenie. Korzystają z niej firmy, które chcą dotrzeć z informacjami o swoich usługach albo produktach do określonej grupy osób, gwarantujących skuteczną dystrybucję informacji.

Innym przykładem młodej dziedziny jest neuroinformatyka, badająca sieci oddziaływań pomiędzy obszarami mózgu, np. na podstawie opisujących aktywność mózgu zdjęć funkcjonalnego magnetycznego rezonansu jądrowego. Takie dokładne migawki można wykonywać nawet 10 razy na sekundę. Analizując je dowiadujemy się, jak informacje o bodźcach zewnętrznych aktywują kolejne rejony mózgu.

W tej chwili dysponentami największych zasobów danych o nas samych są właśnie firmy takie jak Google, Facebook czy Amazon. Może się pojawić myśl, że są one nie tylko w stanie śledzić procesy społeczne, ale i je pobudzać czy wręcz prowokować.
Oczywiście, że może.

Mówimy o realnej możliwości?
To i tak się dzieje, przy udziale Google’a czy bez. Każdy może skrzyknąć lub opłacić 10 osób i w ciągu miesiąca zrobić zamieszanie na forach dyskusyjnych, wywrzeć realny wpływ na podaż określonej informacji.

Oczywiście w przypadku Google’a możliwości oddziaływania są nieporównywalnie większe. Wystarczy, by wyszukiwarka przestała prezentować informacje na temat określonej partii, kraju, wydarzenia, a przestają one istnieć w świadomości znacznej części internautów. Brzmi to trochę jak teoria spiskowa, ale taka jest rzeczywistość. Sporządzanie profilów psychologicznych osób na podstawie ich aktywności w sieci to nie przyszłość, ale teraźniejszość. Google i Facebook z powodzeniem oszacowują na przykład dochody poszczególnych użytkowników sieci czy sympatie polityczne, nawet jeśli nikt jawnie ich nie deklaruje w profilu. Z potężnych zasobów danych, którymi dysponują wielkie firmy internetowe, można robić rzeczy wręcz niewyobrażalne.

W powieściowym cyklu „Fundacja” Isaaca Asimova pojawia się nowa dziedzina nauki: psychohistoria – dział matematyki, na podstawie którego przewiduje się przebieg przyszłości.

Wygląda to na coś niewykonalnego, ale w nauce panuje zasada: nigdy nie mów nigdy. U Asimova najmniej prawdopodobna była ogromna dokładność dokonywanych predykcji, wynosząca kilka dni. Z taką precyzją prognozowanie wydarzeń może być trudne. Ale z mniejszą? Kto wie.

Co nowego w nauce?

W nowej POLITYCE

Zobacz pełny spis treści »

Poleć stronę

Zamknij
Facebook Twitter Google+ Wykop Poleć Skomentuj

Ta strona do poprawnego działania wymaga włączenia mechanizmu "ciasteczek" w przeglądarce.

Powrót na stronę główną