Nauka

Bez wariancji nie da się żyć

Czego się możemy dowiedzieć ze statystyki?

Dr Przemysław Biecki uważa, że statystyka obliczeniowa będzie w przyszłości jedną z ważniejszych profesji świata. Dr Przemysław Biecki uważa, że statystyka obliczeniowa będzie w przyszłości jedną z ważniejszych profesji świata. Tdeusz Późniaka / Polityka
Rozmowa z laureatem Nagrody Naukowej POLITYKI Przemysławem Bieckiem, statystykiem, który poszukuje ukrytych prawidłowości w otaczającym nas morzu informacji

Karol Jałochowski: – Proszę powiedzieć coś, co nie odstraszy czytelnika od słów „statystyka obliczeniowa”.
Przemysław Biecek: – Hal Varian, główny ekonomista Google’a, powiedział niedawno, że za 10 lat najbardziej seksownym zawodem świata będzie profesja statystyka. I myślał oczywiście o statystyce obliczeniowej.

Tylko dlaczego?
Dostęp do danych jest coraz łatwiejszy. Poszukiwanie wśród nich użytecznych i nowych prawidłowości to fantastyczna gra ze światem, rozrywka intelektualna. Przykładowo, w prowadzonym od 11 lat badaniu Diagnoza Społeczna zbierane i udostępniane są dane o ponad 50 tys. Polaków – o tym, jak żyją, co myślą, jak się czują, o czym marzą, na czym im zależy. W sumie pod uwagę bierze się ponad 2 tys. cech każdego badanego. Z takiego zbioru danych można wywnioskować, jak i dlaczego zmienia się system wartości społeczeństwa, jak kształtują się dochody, poglądy polityczne, wykształcenie. Jaka praca może być ciekawsza? Czy to zatrzyma czytelnika?

Zobaczymy...
Dam więc przykłady innych zastosowań statystyki obliczeniowej. Weźmy choćby skonstruowany niedawno przez IBM superkomputer Watson, który wygrał w grę Jeopardy (w Polsce znaną pod nazwą Va Banque) z najlepszymi z ludzkich graczy. Wykorzystywał jednocześnie wiele różnych opartych na statystyce algorytmów przetwarzania tekstu i informacji. Inny przykład dotyczy naszego genomu. W uproszczeniu, przypomina on wyraz składający się z trzech miliardów liter. Aby go odczytać, trzeba ułożyć kilkadziesiąt lub kilkaset miliardów krótkich fragmentów. Fragmenty te zachodzą częściowo na siebie, dzięki czemu możemy połączyć je w dłuższe odcinki, a następnie w całość. Bez komputerów jest to absolutnie niemożliwe.

Początki statystyki obliczeniowej wiążą się z rewolucją informatyczną?
Zdecydowanie tak, bo im więcej danych potrafimy zgromadzić, tym bardziej potrzebujemy statystyki obliczeniowej. Istotne były na pewno badania Stanisława Ulama i Johna von Neumanna z lat 50. Ci pionierzy statystyki obliczeniowej zaprojektowali wówczas algorytm Monte Carlo do symulacji reakcji nuklearnych. Dziś jest on wykorzystywany w wielu innych dziedzinach wiedzy – od szacowania rezerw finansowych banku po analizę struktury białek. Można się cofnąć jeszcze o krok, do zbudowanego w latach 40. brytyjskiego komputera COLOSSUS. Służył do łamania szyfrów niemieckich, czyli do wyszukiwania wzorców w zakodowanych tajnych depeszach. Najgwałtowniejszy rozwój statystyki obliczeniowej przypada na ostatnie lata. Ilość danych przyrasta szybciej niż rozwój procesorów do ich analizy.

W nauce zwykle testuje się pojedyncze hipotezy, jedna po drugiej, ale zdaje się, że wy, statystycy, stosujecie też inną metodę – sprawdzacie wiele przypuszczeń jednocześnie.
Komputery pozwalają na automatyzację pracy. Możemy za jednym zamachem testować tysiące hipotez. Robimy tak na przykład porównując ekspresję genów (czyli informację, jak dużo danego genu człowiek ma w komórce) u osób chorych i zdrowych. Każdy z nas ma około 22 tys. genów – grupę osób zdrowych i chorych musimy porównywać pod względem każdego z nich. W najprostszym przypadku mamy do sprawdzenia 22 tys. hipotez. Bez komputera trochę by to trwało.

Metod statystyki obliczeniowej zaczęto w biologii używać na wielką skalę podczas projektu poznania ludzkiego genomu?
Na pewno badania genetyczne są źródłem ogromnej liczby danych, więc nawet jeśli projekt poznania ludzkiego genomu nie wyznaczał dokładnie punktu zero, to był bardzo blisko niego.

Z tym przedsięwzięciem wiązano ogromne nadzieje – tylko częściowo spełnione, bo okazało się, że geny wyrażają swoją obecność w organizmie w sposób niezwykle złożony. Pańska dziedzina pomaga zrozumieć tę złożoność?
Z ludzkim genomem sprawa jest rzeczywiście skomplikowana. Nie możemy w tym przypadku projektować eksperymentów genetycznych, w których bylibyśmy w stanie kontrolować lub redukować źródła zakłóceń, choćby środowiskowych. Ale osiągamy dobre wyniki w bardziej klasycznych problemach – uprawie roślin, hodowli zwierząt. Na przykład w ciągu ostatnich 50 lat wydajność mleczna krów wzrosła trzykrotnie – właśnie dzięki temu, że można badać, modyfikować lub sterować dziedziczeniem odpowiednich genów. Podobnie z kukurydzą, która stała się odporna na mróz, albo z transgenicznymi ogórkami, które zostały wyposażone w geny sprawiające, że są znacznie słodsze niż kiedyś. Cała inżynieria genetyczna opiera się na statystyce obliczeniowej...

...która stoi nieco w cieniu?
Jerzy Spława-Neyman, jeden z największych statystyków, powiedział kiedyś, że statystyka pełni funkcję służebną wobec innych nauk. Gazety donoszą o nowych lekach, lekarzach czy genetykach, którzy odkrywają nowe terapie. Za tymi wynikami stoją statystycy, którzy wspomagają innych naukowców w ich pracy.

Taka sytuacja nie frustruje?
Mnie nie. Taki fach ma inną zaletę. Statystyk nie pracuje samotnie. Musimy współdziałać z lekarzami, genetykami, finansistami, poznajemy inne dziedziny wiedzy. Możemy badać świat w wielu aspektach.

Z gwałtownym wzrostem liczby danych opisujących organizmy żywe mieliśmy do czynienia w połowie XIX w. Jego skutkiem były narodziny współczesnej biologii, systematyki. Czy informacyjna eksplozja, z którą dziś mamy do czynienia, daje początek nowym naukom?
Powstają wręcz setki nowych dziedzin. Weźmy chociażby analizę sieci społecznościowych, takich jak Facebook czy Twitter, która pozwala badać zachowania poszczególnych użytkowników oraz identyfikować osoby mające duży wpływ na swoje otoczenie. Korzystają z niej firmy, które chcą dotrzeć z informacjami o swoich usługach albo produktach do określonej grupy osób, gwarantujących skuteczną dystrybucję informacji.

Innym przykładem młodej dziedziny jest neuroinformatyka, badająca sieci oddziaływań pomiędzy obszarami mózgu, np. na podstawie opisujących aktywność mózgu zdjęć funkcjonalnego magnetycznego rezonansu jądrowego. Takie dokładne migawki można wykonywać nawet 10 razy na sekundę. Analizując je dowiadujemy się, jak informacje o bodźcach zewnętrznych aktywują kolejne rejony mózgu.

W tej chwili dysponentami największych zasobów danych o nas samych są właśnie firmy takie jak Google, Facebook czy Amazon. Może się pojawić myśl, że są one nie tylko w stanie śledzić procesy społeczne, ale i je pobudzać czy wręcz prowokować.
Oczywiście, że może.

Mówimy o realnej możliwości?
To i tak się dzieje, przy udziale Google’a czy bez. Każdy może skrzyknąć lub opłacić 10 osób i w ciągu miesiąca zrobić zamieszanie na forach dyskusyjnych, wywrzeć realny wpływ na podaż określonej informacji.

Oczywiście w przypadku Google’a możliwości oddziaływania są nieporównywalnie większe. Wystarczy, by wyszukiwarka przestała prezentować informacje na temat określonej partii, kraju, wydarzenia, a przestają one istnieć w świadomości znacznej części internautów. Brzmi to trochę jak teoria spiskowa, ale taka jest rzeczywistość. Sporządzanie profilów psychologicznych osób na podstawie ich aktywności w sieci to nie przyszłość, ale teraźniejszość. Google i Facebook z powodzeniem oszacowują na przykład dochody poszczególnych użytkowników sieci czy sympatie polityczne, nawet jeśli nikt jawnie ich nie deklaruje w profilu. Z potężnych zasobów danych, którymi dysponują wielkie firmy internetowe, można robić rzeczy wręcz niewyobrażalne.

W powieściowym cyklu „Fundacja” Isaaca Asimova pojawia się nowa dziedzina nauki: psychohistoria – dział matematyki, na podstawie którego przewiduje się przebieg przyszłości.

Wygląda to na coś niewykonalnego, ale w nauce panuje zasada: nigdy nie mów nigdy. U Asimova najmniej prawdopodobna była ogromna dokładność dokonywanych predykcji, wynosząca kilka dni. Z taką precyzją prognozowanie wydarzeń może być trudne. Ale z mniejszą? Kto wie.

Zdaje się, że metody statystyki obliczeniowej wykorzystywał niesławny program Total Information Awareness. DARPA (Defense Advanced Research Project Agency), czyli należąca do sektora wojskowego agencja badawcza, zbierała informacje na temat aktywności obywateli – e-maili, treści połączeń telefonicznych, kart badań medycznych itd. Chciała w ten sposób odkrywać ogniska terroryzmu.
Spodziewam się, że jest wiele podobnych projektów wykorzystujących zaawansowane algorytmy do analizy ogromnych ilości danych z przeróżnych kamer, czujników, rozmów telefonicznych, e-maili itp. Te dane są gromadzone i przetwarzane. Ale jak dokładnie – nie wiem.

Można stać się niewidzialnym dla szeroko rozumianego Systemu?
Jeżeli działa się pojedynczo lub we dwie, trzy osoby – to pewnie tak. Taka grupa nie musi się komunikować za pośrednictwem środków elektronicznych. Komunikujesz się, więc jesteś – to znaczy jesteś widoczny.

Są jakieś analogie między wykrywaniem ognisk terroryzmu i zalążków nowotworów?
Istnieją pewne podobieństwa. Wiadomo na przykład, że komórki nowotworowe komunikują się pomiędzy sobą. Jeden guz może wysyłać sygnały hamujące rozwój pozostałych, rozsianych po organizmie guzów. Jednym ze sposobów diagnozowania rodzaju i aktywności nowotworu jest badanie krwi lub innych mediów komunikacyjnych wewnątrz organizmu – właśnie pod kątem sygnałów generowanych przez komórki nowotworowe.

Pytam o nowotwory, bo nimi między innymi pan się zajmuje...
W walce z nowotworami biorę udział pośrednio, pomagając lekarzom, którzy stoją na pierwszej linii – onkologom, chirurgom, nefrologom i genetykom, którzy badają tę chorobę na poziomie komórkowym. Niedawno uczestniczyłem na przykład w badaniu dotyczącym pacjentów po przeszczepie nerki. Muszą przyjmować leki immunosupresyjne, zapobiegające odrzuceniu przeszczepu. Jest wiele takich substancji, wszystkie są toksyczne i osłabiają cały układ odpornościowy, utrudniając mu wykrywanie, a potem eliminowanie komórek potencjalnie nowotworowych. Metodami statystyki obliczeniowej oceniamy, które leki bardziej niż inne sprzyjają nowotworzeniu, które osoby są bardziej narażone na wystąpienie nowotworu. Badamy też, jakie leki przypuszczalnie sprawdzą się najlepiej u pacjentów, u których już zdiagnozowano tego typu chorobę. Co ciekawe, okazuje się, że z powodu odmienności genetycznych w populacjach, innej struktury demograficznej, diety itd., różne leki mogą mieć różną skuteczność w różnych państwach czy nawet rejonach geograficznych. Badając skuteczność tej samej terapii w różnych ośrodkach możemy spodziewać się odmiennych wyników.

Nie możemy więc bezkrytycznie przyjmować wyników badań amerykańskich naukowców?
Potrzebujemy również analiz statystycznych danych z lokalnych szpitali, aby monitorować skuteczność leków w naszym środowisku.

Wyrafinowana analiza statystyczna danych to potencjalne źródło fortuny – w biznesie, przemyśle farmaceutycznym, informacyjnym. Pieniądze są tam, gdzie są dane, dużo danych, czyli raczej nie w Polsce. Z tego faktu wynika niezręczne pytanie o to, co pan tutaj jeszcze robi?
Każdy naukowiec w Polsce ma zapewne podobny dylemat – wyjechać czy zostać. Ale ta lokalność, specyficzny charakter danych lokalnych, bardzo mi się podoba. Pracuję z ludźmi, których znam. Mam poczucie, że wyniki mojej pracy pośrednio oddziałują na środowisko, w którym żyję. To ma dla mnie wielką wartość.

Stąd też pomysł na bloga smarterpoland.pl? Odkrywa pan w nim błędy w wykresach poparcia dla partii politycznych, wynajduje nieścisłości w prezentowaniu trendów cen mieszkań i samochodów, bada sejmową aktywność posłów...
Aby podejmować słuszne działania, musimy mieć dobre dane. Bardzo drażnią mnie artykuły prasowe, w których pojawiają się statystyki pozbawione informacji na temat tego, jak zostały sporządzone. Publikowane są opinie, a nie rzeczywiste dane. Społeczeństwo natomiast może rozwijać się tylko wtedy, kiedy podejmuje akcje na podstawie rzeczywistych, dobrze zrozumianych informacji. Nie chodzi tylko o to, że jakaś wartość, na przykład cena, wzrosła o 10 proc. Ważny jest sposób, w jaki ten wzrost policzono! Opis dynamiki tego wzrostu, a następnie określenie, czy wartość jednostki, w której liczymy ten wzrost, zmieniła się w czasie czy nie. Wynik liczbowy to za mało.

Pomysł na bloga polega na tym, żeby gromadzić publicznie dostępne informacje dotyczące Polski i udostępniać je, by każdy mógł sobie na nich poeksperymentować. Sugeruję też sposób ich analizowania, staram się zachęcać innych do podobnej działalności i samemu uczyć się słabych i mocnych stron różnych podejść do analizy danych. Nikt nie ma monopolu na umiejętność ich czytania.

Hasło bloga: Kwestionuj autorytety. Prawda jest w danych – brzmi dość wywrotowo...
Wiesław Kostarczyk, jeden z moich nauczycieli matematyki w liceum, mawiał, że w matematyce nie można wierzyć nikomu. Wszystkie dowody można i należy sprawdzić samemu. Twierdzenie jest prawdziwe, jeżeli potrafimy je udowodnić. Jeżeli dowód jest poprawny, to nie ma znaczenia, czy jego autorem jest profesor czy student. Dlaczego w realnym życiu nie miałoby być inaczej? Zamiast opierać się na gazetowej opinii jednego analityka (na temat cen mieszkań czy liczby poprawek zgłoszonych przez posłów różnych partii), wolę sprawdzić to sam. Chciałbym, by ów przykładowy analityk udostępnił dane źródłowe wraz z opisem procesu ich badania. Nie podoba mi się brak możliwości weryfikacji analiz, na podstawie których ja lub ktoś z mojego otoczenia będzie podejmował decyzje. Świadomy obywatel nie powinien przyjmować na wiarę opinii autorytetów.

Jakie na przykład niespójności między danymi a ich analizą, prezentowaną w mediach, udało się panu wychwycić?
Do ludzi przemawiają obrazki, wizualizacje. Tymczasem słupki ilustrujące poparcie dla partii politycznych są czasem rysowane takimi kolorami albo w takiej perspektywie, że zupełnie nie pokrywają się z danymi, na podstawie których powstały. Czasem jest to świadoma manipulacja, czasem nieświadoma, ale zawsze należy ją piętnować. Niedawno natknąłem się na wykres, w którym rzeczywiste poparcie dla jednej partii było wyższe o 4 proc. od poparcia dla drugiej, ale na obrazku ta różnica wyglądała na przynajmniej kilkanaście procent.

Inny przykład dotyczy artykułów opisujących zmianę cen mieszkań, z których nie sposób wywnioskować, co z czym właściwie jest porównywane. Nie wiadomo, czy analityk uwzględnił zmieniającą się liczbę mieszkań na rynku, standard ich wykończenia i wiele innych parametrów. A tymczasem na podstawie ogólnie dostępnych danych ofertowych można samemu zbadać trendy. Okazuje się, że czasem średnia cena maleje, ponieważ jednocześnie zmienia się struktura mieszkań oferowane są na przykład mieszkania o gorszej lokalizacji. A nie można porównywać gruszek z jabłkami.

Jeśli nie chcemy ulegać manipulacjom, musimy mieć minimalną choćby wiedzę ze statystyki?
Koniecznie. Bez niej trudno jest zrozumieć świat, w którym żyjemy.

Nie ma społeczeństwa obywatelskiego bez matematyki?
Nie ma. Nie można żyć świadomie nie wiedząc, czym jest wartość oczekiwana i wariancja. Wokół nas jest morze liczb. Musimy umieć poprawnie je czytać.

rozmawiał Karol Jałochowski

W cyklu prezentacji laureatów Nagród Naukowych opublikowaliśmy już: „Granice życia” rozmowę z bioetyczką Joanną Różyńską, POLITYKA 45.

Dr inż. Przemysław Biecek (ur. 1979 r.) jest statystykiem, kierownikiem Zakładu Statystyki Matematycznej na Wydziale Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego. Szczególną atencją darzy statystykę obliczeniową, a zwłaszcza biostatykę – nową dziedzinę nauki, powstałą na styku matematyki, informatyki, biologii i medycyny (m.in. współpracując z Dolnośląskim Centrum Onkologii badał, jak różne rodzaje nowotworów piersi reagują na rozmaite schematy leczenia; ze specjalistami z Kliniki Nefrologii Uniwersytetu Wrocławskiego sprawdzał, czy na podstawie różnorodnych cech pacjenta można przewidzieć oczekiwany czas funkcjonowania przeszczepionej nerki). Biecek jest autorem lub współautorem kilkudziesięciu prac naukowych, laureatem m.in. nagrody Fundacji na rzecz Nauki Polskiej START. Prowadzi, zagrzewający do aktów intelektualnego nieposłuszeństwa, obywatelski blog smarterpoland.pl.

Polityka 46.2011 (2833) z dnia 08.11.2011; Nauka ; s. 59
Oryginalny tytuł tekstu: "Bez wariancji nie da się żyć"
Reklama

Codzienny newsletter „Polityki”. Tylko ważne tematy

Na podany adres wysłaliśmy wiadomość potwierdzającą.
By dokończyć proces sprawdź swoją skrzynkę pocztową i kliknij zawarty w niej link.

Informacja o RODO

Polityka RODO

  • Informujemy, że administratorem danych osobowych jest Polityka Sp. z o.o. SKA z siedzibą w Warszawie 02-309, przy ul. Słupeckiej 6. Przetwarzamy Twoje dane w celu wysyłki newslettera (podstawa przetwarzania danych to konieczność przetwarzania danych w celu realizacji umowy).
  • Twoje dane będą przetwarzane do chwili ew. rezygnacji z otrzymywania newslettera, a po tym czasie mogą być przetwarzane przez okres przedawnienia ewentualnych roszczeń.
  • Podanie przez Ciebie danych jest dobrowolne, ale konieczne do tego, żeby zamówić nasz newsletter.
  • Masz prawo do żądania dostępu do swoich danych osobowych, ich sprostowania, usunięcia lub ograniczenia przetwarzania, a także prawo wniesienia sprzeciwu wobec przetwarzania, a także prawo do przenoszenia swoich danych oraz wniesienia skargi do organu nadzorczego.

Czytaj także

Fotoreportaże

Urok małych liczb. Najlepsze polskie apartamentowce

Zamiast balkonów na długość stopy i niedoświetlonych parapetów są szerokie tarasy i wielkie okna, zamiast anonimowości – przestrzenie, które sprzyjają spotkaniom z sąsiadami. Najlepsze polskie apartamentowce mają mało mieszkań, wyjątkową architekturę i położenie. Niestety, kameralne wciąż znaczy rzadkie i ekskluzywne.

Marta Polny
28.09.2021
Reklama

Ta strona do poprawnego działania wymaga włączenia mechanizmu "ciasteczek" w przeglądarce.

Powrót na stronę główną