Ponad 2 mld internautów, ponad 6 mld abonentów sieci telefonii komórkowej, miliardy urządzeń elektronicznych podłączonych do sieci teleinformatycznych – nieustannie wysyłają sygnały i produkują treści skrzętnie gromadzone na milionach serwerów. Jeden tylko serwis internetowego wideo YouTube gromadzi w ciągu minuty 72 godz. filmów nagrywanych przez internautów. Miliard użytkowników serwisu społecznościowego Facebook każdego dnia publikuje ponad ćwierć miliarda zdjęć i wystawia 3 mld „lajków” – to najprostszy sposób wyrażenia opinii o notce, fotografii lub filmiku innych fejsbukowiczów.
Astronomiczne liczby oszałamiają, to jednak dopiero początek epoki Big Data – epoki wielkich ilości danych. Większość zwykłych internautów jest przerażona nadmiarem informacji, przed zaczadzeniem smogiem informacyjnym ostrzegał już pod koniec XX w. znakomity polski informatyk prof. Ryszard Tadeusiewicz. To, co jednych niepokoi, innych podnieca. Dane dla XXI stulecia będą tym, czym ropa dla XX – kluczowym surowcem, przekonują szefowie firm teleinformatycznych. Wtórują im naukowcy: – Nadeszły złote czasy dla statystyków – cieszy się dr Andrzej Dąbrowski z Uniwersytetu Wrocławskiego.
By nie być gołosłownym, podaje przykład. W jaki sposób ujawnić epidemię grypy? Tradycyjnie potrzebne są do tego informacje o zachorowaniach, jakie lekarze i szpitale przekazują służbom epidemiologicznym. Na ich podstawie można stwierdzić, jak zmienia się liczba chorych, i ocenić, czy sytuacja mieści się w normie, czy też zbliża do wybuchu. Google postanowił jednak sprawdzić inną metodę – poddał analizie statystycznej pytania, jakie użytkownicy wpisują w okienko wyszukiwarki. Okazało się, że na tej podstawie można rozpoznać epidemię grypy nawet do dwóch tygodni wcześniej niż metodami epidemiologicznymi.
Duch nowych czasów
Analizując pytania internautów, czyli dane, jakie pozostawili na serwerach wyszukiwarki, można też wychwytywać inne trendy. Swoim użytkownikom Google oferuje możliwość samodzielnej analizy lub lekturę wyników serwisu Google Zeitgeist, pokazujących „ducha czasu” – najgorętsze tematy w interesującym okresie. Polskich internautów w ubiegłym roku najbardziej podniecał kwejk, serwis z żartami rysunkowymi. Dużo ruchu wywoływał Facebook, a także spis powszechny.
Nie inaczej inżynierowie z Google uczą swoje serwery języków obcych. Ich podejście jest jednocześnie bardzo proste i wyrafinowane. Proste, bo zakłada, że do tłumaczenia między dowolnymi dwoma językami wcale nie trzeba znać ich gramatyki. Wystarczy odpowiednio duży zasób dokumentów istniejących w kilku wersjach językowych. Wówczas, na podstawie analizy statystycznej, można nauczyć maszyny trudnej sztuki przekładu.
Google nic innego od lat nie robi, tylko gromadzi i indeksuje biliony dokumentów tekstowych, w tym także miliony książek, w jakich się tylko da językach (plan maksimum – zdigitalizować wszystkie dotychczas wydane na świecie książki, a więc jakieś 210 mln pozycji). Każdy zamieniony na bity tom zwiększa statystyczną bazę niezbędną, by automatyczny tłumacz radził sobie coraz lepiej. Jakość maszynowych przekładów, dziś pozostawiających ciągle wiele do życzenia, będzie się poprawiać wraz ze wzrostem ilości danych, także o użytkownikach serwisu.
Internauta, którego zachowania w sieci zdradzą, że jest informatykiem, najprawdopodobniej otrzyma inną propozycję tłumaczenia słowa Java niż internauta smakosz kawy. Dla pierwszego bowiem Java oznacza środowisko programowania komputerowego. David Bellos, dyrektor Programu Tłumaczeń i Komunikacji Międzykulturowej w Princeton University, wyjaśnia w książce „Is That a Fish in Your Ear?” strukturę pomysłu Google. Zastosowanie olbrzymich mocy obliczeniowych i technik statystycznych jest w nim kluczowe, nie zdałoby się jednak na nic, gdyby nie potęga żywej kultury i skumulowana przez dziesiątki lat praca ludzkich tłumaczy.
Doskonale to widać zwłaszcza podczas przekładów między dwoma mało popularnymi językami: na przykład maltańskim i islandzkim. Trudno się spodziewać, że istnieje duży korpus bezpośrednich przekładów. Można jednak liczyć, że istnieje sporo takich samych tekstów po islandzku i maltańsku, jak choćby opowieści o Harrym Potterze, oryginalnie napisane po angielsku. Bez zasobu tekstów napisanych w językach „głównych” projekt Google Translate, oferujący przekłady między 64 językami, byłby niemożliwy. Bellos ironicznie komentuje: „Prawdziwie czarodziejska moc Harry’ego Pottera może kryć się w jego ukrytej zdolności do wspierania tłumaczeń z hebrajskiego na chiński”. (Więcej o automatycznych tłumaczeniach w najnowszym „Niezbędniku Inteligenta” „O języku w mowie i piśmie”. Szczegóły na s. 115).
Czy Spielberg przewidział?
Pomysłów na wykorzystanie nowego surowca – danych – nie brakuje. Wiemy doskonale, że operatorzy sieci komórkowych potrafią na podstawie informacji ze stacji bazowych określać miejsce przebywania swoich abonentów. Mogą też odtwarzać ścieżki, jakimi poruszali się w przeszłości. Latem tego roku zespół uczonych z University of Birmingham, pracujący pod kierownictwem Mirco Musolesiego, przebił wszystkich. Okazuje się bowiem, że cyfrowe dane umożliwiają także przewidywanie przyszłości – czyli wskazywanie miejsc przyszłego pobytu interesującej osoby.
Badacze wzięli pod lupę 200 osób mieszkających w okolicach Lozanny w Szwajcarii. Analizowali nie tylko informacje od operatorów komórkowych, lecz również inne dane gromadzące się w pamięci telefonów i w sieci: kontakty z innymi osobami, transakcje, czynności wykonywane wspólnie, np. wizyta w restauracji lub w sklepie. Cyfrowe okruchy układają się w subtelny profil osoby, na podstawie którego można określić przewidywalność jej zachowań. W tym miejsce przyszłego pobytu z dokładnością do 60 stóp, czyli niespełna 20 m. W 2010 r. do podobnych rezultatów doszedł węgierski fizyk Albert Laszlo-Barabasi, pracujący w Notre Dame University w Stanach Zjednoczonych. Policzył, że ludzie są przewidywalni średnio w 93 proc. – oznacza to, że na podstawie wcześniejszych zachowań można określić, gdzie ktoś będzie w przyszłości przez 93 proc. czasu. Metoda Mucolesiego zwiększa prognostyczną dokładność.
Czyżby świat wyobrażony przez Stevena Spielberga w filmie „Raport mniejszości” stał się rzeczywistością? Chyba tak, bo choć na ewentualne wykorzystanie wyników badań zespołu Musolesiego trzeba jeszcze poczekać, to policja w USA już stosuje metody przewidywania przestępstw, polegające na analizie statystycznej danych o wcześniejszych incydentach, analizie wyników badań socjologicznych oraz monitorowaniu ruchu w sieciach społecznościowych, takich jak Facebook lub Twitter. Policjanci z Santa Cruz twierdzą, że dzięki nowym sposobom tropienia złoczyńców liczba włamań zmalała w ich mieście w 2011 r. o 19 proc.
Twitter i inne serwisy, zwłaszcza popularny wśród brytyjskiej młodzieży bezpłatny komunikator Blackberry, stały się w 2011 r. obiektem ataku ze strony Davida Camerona. Premier Wielkiej Brytanii stwierdził, że nowe sposoby komunikowania się ponoszą dużą część odpowiedzialności za rozróby, do jakich doszło w Londynie latem zeszłego roku. Bez nich młodzi chuligani nie potrafiliby koordynować swoich działań. Popularny dziennik „The Guardian” postanowił sprawdzić słuszność zarzutów polityka i przeanalizował dane, jakie otrzymał od operatora Twittera. Pozwoliły precyzyjnie prześledzić dynamikę rozprzestrzeniania się buntu, a także zbadać tematykę komunikatów, jakimi wymieniali się twitterowicze. Wścibscy dziennikarze uzyskali inny obraz rzeczywistości niż posługujący się jedynie intuicją premier. Tak, Twitter i podobne serwisy były intensywnie wykorzystywane, służyły głównie zwykłym obywatelom do uzyskiwania informacji o tym, co się dzieje i jak uniknąć niebezpieczeństw. Przy okazji „The Guardian” pokazał skuteczność nowej formy medialnej – data journalism, czyli dziennikarstwa opartego na analizie danych.
Carlo Ratti, profesor Massachusetts Institute of Technology, gdzie kieruje Senseable City Lab, ma jeszcze inny pomysł na wykorzystanie cyfrowych danych, produkowanych przez ludzi i urządzenia podłączone do sieci. Ze swym zespołem intensywnie pracuje nad projektem real time city, czyli miasta w czasie rzeczywistym, które jest nieustannie podglądane, a analiza danych umożliwia błyskawiczne i elastyczne podejmowanie decyzji: policji w walce z przestępcami, zarządzającym transportem miejskim o dyspozycji pojazdów, władzom miasta o rejonach ewentualnych zagrożeń lub problemów.
Co z prywatnością?
Analizą zbiorów danych zajmują się nie tylko korporacje teleinformatyczne. Również w Polsce powstają firmy eksploatujące nowy surowiec. Firma SmartNet Research&Solutions, założona przez naukowców z Uniwersytetu Warszawskiego, opracowała sotrender, narzędzie służące do analizy danych gromadzonych w serwisach społecznościowych. Stało się o niej głośno podczas protestów anty-ACTA. Rządowi specjaliści od piaru postanowili wówczas ocenzurować komentarze na stronie (fanpage) Kancelarii Premiera na Facebooku. Skasowane komentarze jednak nie zniknęły, lecz stały się przedmiotem badania specjalistów ze SmartNet. Pokazali, że argumenty premiera o konieczności cenzury ze względu na wulgaryzmy mijały się z rzeczywistością. Parafrazując słowa Czesława Miłosza, należy dziś ostrzegać: Nie bądź bezpieczny, Internet pamięta.
Świat Big Data to świat wielkich, nieodkrytych jeszcze możliwości. To jednak także świat budzący niepokój o prywatność oraz strach przed permanentną inwigilacją. Coraz większą świadomość społecznych konsekwencji Big Data mają przedstawiciele informatycznego biznesu. Zdają sobie sprawę, że jeśli chcą wykorzystać nowe paliwo dla rozwoju swoich firm, muszą przekonać ludzi, że nie budują świata z dystopii George’a Orwella.
Dlatego w marcu tego roku ruszył wielki projekt Human Face of Big Data (Ludzki Wymiar Świata Danych), którego głównym sponsorem jest koncern EMC, zajmujący się systemami gromadzenia, przechowywania i analizy danych. W ramach projektu Rick Smolan, były dziennikarz tygodnika „Time”, wspólnie z setką fotografów z 30 krajów dokumentuje świat zmieniony przez cyfrowe technologie epoki danych. W listopadzie ukaże się album podsumowujący przedsięwzięcie. Na witrynie internetowej thehumanfaceofbigdata.com każdy może pobrać aplikację na smartfon. Umożliwia ona włączenie się w globalny nurt danych – po wypełnieniu interaktywnego kwestionariusza można poszukać „cyfrowego bliźniaka”, osoby o podobnej charakterystyce, i sprawdzić, jak bardzo jest się różnym lub podobnym do innych uczestników projektu. Zabawa, która dzięki gromadzonym informacjom pomaga poznać lepiej siebie i innych. Nie rozwiewa wątpliwości, pozwala jednak oswoić się z nową rzeczywistością.
Czy chcemy, czy nie, dane to jednocześnie produkt uboczny i surowiec współczesnej, cyfrowej cywilizacji. Tylko od nas zależy, jak go wykorzystamy.