Jarosław Marczuk

Mam cię na oku

Zaawansowane systemy rozpoznawania twarzy

19 listopada 2013

Dotychczas istniejące systemy rozpoznawania twarzy albo są wciąż jeszcze zawodne, albo łatwo daje się je oszukać. Viktor Thaut / PantherMedia

Komputery już potrafią rozpoznawać nasze twarze – co prawda jeszcze nie wszystkie i nie zawsze, ale już niedługo nie będzie można się przed nimi ukryć.

Twórcy komputerowych systemów rozpoznawania twarzy staraja sie naśladować ludzkie zdolności rozpoznawania innych osób.

Colin Anderson/Getty Images/Brand X/FPM Twórcy komputerowych systemów rozpoznawania twarzy staraja sie naśladować ludzkie zdolności rozpoznawania innych osób.

Mission Impossible 4” to typowy amerykański film akcji. Przeładowany efektami specjalnymi, na które w dużej mierze składają się strzelaniny i pościgi samochodowe. Jego główny bohater, pracownik tajnej agencji do zadań specjalnych, znów ratuje świat przed zagładą. Pomagają mu w tym nie tylko koledzy po fachu, ale przede wszystkim różnego rodzaju gadżety. Wśród nich są szkła kontaktowe, które w połączeniu z iPhone’em umożliwiają rejestrowanie i rozpoznawanie ludzkich twarzy. W filmie ta technologia działa jak marzenie. A w rzeczywistości?

– Po zamachach 11 września 2001 r. na World Trade Center w Nowym Jorku wzrosło zainteresowanie rozwojem systemów rozpoznawania twarzy. Testowano je potem na amerykańskich lotniskach, ale skończyło się to klapą – mówi dr inż. Adam Nowosielski z Wydziału Informatyki Zachodniopomorskiego Uniwersytetu Technologicznego w Szczecinie. Eksperymentują nadal producenci sprzętu komputerowego, systemów bezpieczeństwa oraz firmy internetowe. Wielu z nich przekonuje, że ta technologia jest już skuteczna. Niemniej niedawno, pomimo milionów dolarów zainwestowanych w jej rozwój, sprawców zamachu terrorystycznego w Bostonie, braci Carnajewów, wytypowały nie maszyny, lecz ludzie.

Neurony babcine i sieciowe

Twórcy systemów rozpoznawania twarzy starają się odtworzyć ludzką zdolność do rozpoznawania innych osób. Nie jest to łatwe. – Percepcja twarzy to najlepiej wykształcona zdolność spostrzegania wzrokowego u człowieka – twierdzi dr Krystyna Rymarczyk, adiunkt w Instytucie Biologii Doświadczalnej im. M. Nenckiego PAN. Dzięki temu poznajemy płeć, wiek i emocje oglądanej osoby, tą drogą oceniamy też jej atrakcyjność i formułujemy o niej pierwsze sądy.

W świecie naukowym zderzają się ze sobą dwie koncepcje wyjaśniające sposób rozpoznawania twarzy. Wśród neurobiologów wciąż trwają dyskusje, ile komórek nerwowych w mózgu potrzeba do przechowania danego pojęcia. Kontrowersyjną hipotezę wysnuł na ten temat w latach 60. XX w. amerykański badacz Jerome Lettvin, który stwierdził, że do zapisania i potem rozpoznania obrazu wystarczy 18 tys. neuronów. W radykalnej interpretacji jego teorii można nawet uznać, że jeden konkretny neuron reaguje na jeden przedmiot lub osobę – na przykład na twarz babci. Stąd też pochodzi ich nazwa – komórki (lub neurony) babci. – Konkretny bodziec (np. twarz – przyp. red.) jest raczej zakodowany w specyficznej sieci neuronalnej niż w jednej komórce neuronowej. Ta sieć ulega reorganizacji pod wpływem nowych doświadczeń, takich jak poznawanie nowej osoby – uważa dr Rymarczyk. Jak to ujął noblista sir Charles Sherrington, postrzeganie obiektu jest możliwe dzięki „demokracji milionów”, czyli współpracy milionów komórek nerwowych, nie zaś wskutek odpalania pojedynczych neuronów.

– Gdy na kogoś patrzymy, to koncentrujemy wzrok w obrębie trójkąta oczy–usta – twierdzi dr Rymarczyk. To ich położenie, kształt i wyraz są źródłem podstawowych informacji o drugiej osobie. Wystarczy zasłonić oczy czarnym paskiem, jak na zdjęciach policyjnych, lub usta i nos chustą, jak często czynią to demonstranci, aby utrudnić policji identyfikację i odczytanie emocji. Ten mechanizm działa też w drugą stronę. Jest nam bardzo trudno kogoś zidentyfikować, patrząc na same oczy lub usta. – Człowiek postrzega twarz jako całość – podsumowuje dr Rymarczyk.

Na to, czy kogoś poznamy po twarzy – odczytamy jego zamiary i uczucia – oprócz biologii wpływa też trening kulturowy. – W kulturach dalekowschodnich – japońskiej czy chińskiej – w trakcie kontaktu z drugą osobą patrzy się przede wszystkim w okolice jej nosa i ust – dodaje dr Rymarczyk, podkreślając, że niegrzeczne jest długotrwałe podtrzymywanie kontaktu wzrokowego. Doświadczenie wpływa też na zdolność do odróżniania twarzy przedstawicieli innych ras.

– Ktoś wychowany wśród białych Europejczyków często będzie miewał kłopoty z odróżnieniem mieszkańców Afryki, nie mówiąc już o wyczytaniu z ich twarzy bardziej subtelnych emocji, jak duma czy wstyd – podkreśla dr Rymarczyk. W teorii ta sytuacja daje dużą przewagę komputerowym systemom rozpoznawania twarzy, w których wystarczy zaprogramować odpowiednie zmienne, aby pokonać bariery kulturowe. Po części to prawda. W tych układach powszechnie stosuje się obecnie sieci neuronowe, które usiłują odtworzyć mechanizmy zachodzące w naszym mózgu podczas identyfikowania danej osoby. Dla nich kolor skóry nie ma znaczenia. To niewątpliwa przewaga maszyn nad człowiekiem. Jednak takie algorytmy często nie radzą sobie z bardziej elementarnymi problemami, które dla ludzi są pestką.

Komputer szuka człowieka

Na papierze wszystko wygląda prosto: człowiek wchodzi w pole widzenia kamery, ta zapisuje obraz jego twarzy i przesyła do komputera, który porównuje go z materiałami zdjęciowymi przechowywanymi w bazie danych. W rzeczywistości problemy zaczynają się już na samym początku, bo większość systemów rozpoznawania twarzy jest testowana w warunkach optymalnych. To znaczy przy dobrym oświetleniu, gdy osoba rozpoznawana patrzy z neutralnym wyrazem twarzy prosto w kamerę. Tymczasem takie sytuacje na ulicy po prostu się nie zdarzają.

– Rejestracji obrazu z kamer monitoringu zazwyczaj towarzyszy zmienne oświetlenie. Często też urządzenia monitorujące umieszczone są w takich miejscach, by nie mogli ich uszkodzić wandale, co determinuje kąt filmowania – mówi dr Nowosielski. – Im większa odległość kamery od obserwowanego obiektu, tym większa strata jakości obrazu oraz zmniejszenie samej wielkości twarzy – a tym samym ilości informacji zawartych w jej obrazie.

Ponadto rzadko poruszamy się po mieście z gołą głową i niewzruszoną miną terminatora. Okulary przeciwsłoneczne, kaptur czy czapka z daszkiem są zaporą nie do przejścia dla algorytmów, bo te – podobnie jak człowiek – bardzo często rozpoznają twarz, obserwując oczy, usta i nos. – Komputery mierzą kształt i geometryczne zależności pomiędzy nimi – opowiada dr Nowosielski. W efekcie systemy rozpoznawania twarzy, które w warunkach laboratoryjnych osiągają skuteczność nawet ponad 90 proc., w rzeczywistości radzą sobie dużo gorzej.

O systemach rozpoznawania twarzy dużo mówi się przy okazji wykorzystania biometrii (metody identyfikacji osób za pomocą ich cech fizycznych) do weryfikacji tożsamości, na przykład użytkowników kont bankowych. Chętnie z tą technologią eksperymentują także producenci smartfonów i portale internetowe. Jakiś czas temu Facebook wprowadził dla swoich użytkowników system autoryzacji oparty na rozpoznaniu twarzy (wyłączony w Unii Europejskiej na wniosek irlandzkiego i niemieckiego komisarzy ochrony danych osobowych). Skutek? Okazało się, że system dziecinnie łatwo oszukać. Wystarczy, że przed kamerą zamiast żywego człowieka pojawi się jego zdjęcie bez odblasków.

Stale pojawiają się nowe pomysły na uniknięcie podobnych oszustw. Problem kiepskiego oświetlenia można rozwiązać, doświetlając twarz podczerwienią. Z kolei podkładanie zdjęć można wykryć poprzez stosowanie kamer 3D, które dają obraz przestrzenny. Ale są one drogie. Można je zastąpić wieloma kamerami dwuwymiarowymi, ale to rozwiązanie nadające się raczej tylko dla firm, a nie domowych użytkowników. Innym pomysłem na wyeliminowanie podsuwania zdjęć przed obiektyw jest pomiar ruchu twarzy przed kamerą lub tętna, ale ta technologia też ma swoje wady. Nawet gdyby udało się je pokonać, pozostaje jeszcze jedna, być może największa – bazy danych.

– Nie można kogoś zidentyfikować za pomocą kamery, gdy nie ma zapisanego wzorca jego twarzy – zauważa dr Nowosielski. A ten trzeba najpierw pobrać, jak już wiemy, w określonych warunkach oświetleniowych, pod odpowiednim kątem, przy zachowaniu jej neutralnego wyrazu. Najlepiej, żeby to było zdjęcie paszportowe. O ile dla służb policyjnych stworzenie takiej bazy powinno być prostym zadaniem, o tyle prywatne firmy mogą mieć z tym więcej kłopotu. Chociaż i na to są różne sposoby.

Facebook niedawno zapowiedział zmiany w polityce prywatności, które pozwolą firmie dodać do swojej bazy danych systemu rozpoznawania twarzy wszystkie zdjęcia profilowe zamieszczone w serwisie przez jego użytkowników (obecnie wykorzystywane są tylko zdjęcia otagowane). Zanim zaczniemy krzyczeć, że naruszy to naszą prywatność (przypuszczalnie ostro zareagują tu unijni komisarze ochrony danych osobowych), warto wiedzieć, że nawet baza zdjęć wszystkich ludzi na Ziemi może okazać się niewystarczająca do zidentyfikowania poszukiwanej osoby. – Zmieniamy się przecież z każdym rokiem – mówi dr Nowosielski.

Oprócz służb na systemy rozpoznawania twarzy szczególnie liczy branża rozrywkowa i reklamowa. Odczytywanie naszych emocji podczas oglądania telewizji, przeglądania stron internetowych czy grania w gry komputerowe to marzenie speców od marketingu. Jego spełnienie wiąże się oczywiście z opracowaniem algorytmów lepszych niż te dostępne dzisiaj.

Koty Google

Od maja br. Google oferuje użytkownikom niepozorną opcję przeszukiwania ich bazy zdjęć. Niby nic niezwykłego. Każdy, kto trochę się bawił komputerowymi albumami fotograficznymi, spotkał się z tą propozycją. Wystarczy załadować zdjęcie, odpowiednio je podpisać (otagować) i… Nowatorskość wprowadzonego rozwiązania polega na tym, że algorytm Google przeszukuje także zdjęcia niepodpisane. To znaczy sam rozpoznaje to, co na nich jest – krajobraz, góry, przedmioty, ludzi. Chociaż na razie możliwości tej usługi są mocno i prawdopodobnie celowo ograniczone (już dwa lata temu Google wprowadził możliwość przeszukiwania Internetu w celu zidentyfikowania twarzy danej osoby na zdjęciu, ale projekt zawieszono ze względu na kontrowersje, jakie wywoływał), to pokazują kierunek, w którym zmierza jedna z najpotężniejszych i najbardziej innowacyjnych firm technologicznych świata. Google uczy komputery nie tylko widzieć świat, ale także go rozumieć.

W zeszłym roku gigant z Mountain View opublikował raport z badań przeprowadzonych na kotach. Kotach cyfrowych. Otóż firma użyła tysiąca komputerów z 16 tys. procesorów i za pomocą opracowanego przez siebie algorytmu opartego na sieciach neuronowych przeszukała 10 mln nagrań wideo z portalu YouTube. W efekcie analizowania obrazków maszyna nauczyła się, jak wygląda kot, i posiadła umiejętność jego rozpoznawania. Dokładniej mówiąc – „stworzyła” kota. – Nigdy temu algorytmowi nie powiedzieliśmy „to jest kot”. Sam wymyślił pojęcie kota – stwierdził w wywiadzie dla jednego z amerykańskich portali dr Jeffrey Dean, jeden z kierowników projektu.

Skuteczność algorytmu Google na razie wynosi „tylko” 15,8 proc., więc trzeba jeszcze nad nim popracować. Jednak ukazuje on przyszłość rozpoznawania obrazów przez maszyny.

W świecie jutra kamery będą wszechobecne, chociażby w postaci takich gadżetów jak Google Glass. Ich zadaniem będzie nie tylko rejestrowanie i rozpoznawanie naszych twarzy i wyczytywanie z nich emocji (chociaż Google już zapowiedział zablokowanie tej opcji w swoich urządzeniach). Zajmą się one również poszukiwaniem zwierząt, przedmiotów, miejsc, a nawet określonych widoków. Do tego właśnie zmierzają takie projekty jak ten z kotami. Pojawienie się wyszukiwarek rzeczy w świecie materialnym wydaje się nieuniknione.

Polityka 47.2013 (2934) z dnia 19.11.2013; Nauka; s. 76

Oryginalny tytuł tekstu: "Mam cię na oku"

Jarosław Marczuk

Więcej na ten temat

Czy pracodawca może żądać odcisków palców?

Wiarygodność w czasach niepewności

Wypróbuj za 11,90 zł!

Mam cię na oku

Zaawansowane systemy rozpoznawania twarzy

Neurony babcine i sieciowe

Komputer szuka człowieka

Koty Google

Jarosław Marczuk

Czy pracodawca może żądać odcisków palców?

Najczęściej czytane w sekcji Nauka

Za dużo leków, diagnoz depresji, autyzmu i ADHD? Wielki spór w psychiatrii

Zmarł Daniel Dennett, wybitny filozof. „Każdy powinien siebie pytać: a co, jeśli nie mam racji?”

Skąd się wzięło życie na Ziemi? Badacze teorie mają dwie. Ekscytujące i sprzeczne

Jak wyglądałaby Polska, gdyby nie było tu ludzi. I dlaczego warto o tym pomyśleć

Czy żyjemy w antropocenie? Naukowcy już mieli to ogłosić. I wtedy wybuchła bomba

Czytaj także

Łomot, wrzaski i deskorolkowcy. Czasem pijani. Hałas może zrujnować życie

Kolejny zjazd Lewicy. Tkwi w pułapce, a przed nią scenariusze złe i jeszcze gorsze

Ustalenia „Polityki”: Rektor UW zarabia wielkie pieniądze jako doradca odwołanej prezeski PZU. I trudno go zwolnić

„Fallout”: makabryczny serial o atomowej zagładzie. Strach się śmiać!

Dlaczego książki drożeją, a księgarnie upadają? Na rynku dzieje się coś dziwnego

Zmarł Daniel Dennett, wybitny filozof. „Każdy powinien siebie pytać: a co, jeśli nie mam racji?”

Dlaczego tak późno? Marian Turski w 80. rocznicę wybuchu powstania w getcie warszawskim

Dzieje polskiej wsi. Zamów już dziś najnowszy Pomocnik Historyczny „Polityki”

Kaczyński się pozbierał, złapał cugle, zagrożenie nie minęło. Czy PiS jeszcze wróci do władzy?

O motywacji wewnętrznej i zewnętrznej

O co ta burza nad kładką w Warszawie. Spacerowicze zachwyceni, internet zapłonął ze złości

Czy człowiek mordujący psa zasługuje na karę śmierci? Daniela zabili, ciało zostawili w lesie

Czy żyjemy w antropocenie? Naukowcy już mieli to ogłosić. I wtedy wybuchła bomba