Ludzie i style

Pora na translatora

Czy dzięki Google Translate nauka języków stanie się przeżytkiem?

Wszystkie 103 języki dostępne w Translate mają być obsługiwane przez sztuczną inteligencję na początku nowego roku. Język polski otrzymał asystę sztucznej inteligencji już w marcu 2017 r. Wszystkie 103 języki dostępne w Translate mają być obsługiwane przez sztuczną inteligencję na początku nowego roku. Język polski otrzymał asystę sztucznej inteligencji już w marcu 2017 r. Mirosław Gryń / Polityka
Automatyczne tłumaczenia podbiły sieć, a za sprawą Google Translate zaczynają wychodzić na ulice. Czy nauka języków stanie się przeżytkiem?
Hiszpański, francuski, portugalski, niemiecki, japoński, chiński, koreański i turecki – tłumaczenie tych ośmiu języków na angielski i z powrotem Google powierzyło rok temu sztucznej inteligencji.Mirosław Gryń/Polityka Hiszpański, francuski, portugalski, niemiecki, japoński, chiński, koreański i turecki – tłumaczenie tych ośmiu języków na angielski i z powrotem Google powierzyło rok temu sztucznej inteligencji.
Lingwistyczne algorytmy coraz częściej samodzielnie szukają materiałów do nauki, przyglądając się chociażby ludzkim konwersacjom w sieci.Mirosław Gryń/Polityka Lingwistyczne algorytmy coraz częściej samodzielnie szukają materiałów do nauki, przyglądając się chociażby ludzkim konwersacjom w sieci.

Programista popełnił głupi błąd. Polecono mu połączyć kilka języków używanych w Indiach w jeden model językowy systemu Google Translate, najpopularniejszego internetowego tłumacza. Serwis ten obsługuje obecnie 103 języki – od afrikaans i albańskiego po xhosa i zulu – z których korzysta 99 proc. internautów. Zgrupowanie kilku pokrewnych języków indyjskich we wspólny model miało sprawić, że maszyna będzie uzupełniać braki w jednym języku na podstawie jego podobieństw do pozostałych. Mniej więcej tak jak osoba znająca język hiszpański łatwiej radzi sobie z nauką portugalskiego. A znająca litewski – z łotewskim.

Programista miał więc wrzucić do jednego modelu dziewięć języków używanych w Indiach, które obsługuje obecnie Translate, czyli: hindi, bengalski, telugu, marathi, tamilski, urdu, gudżarati, malajam oraz kannada. Pomylił się jednak, wpisując skrótową nazwę tego ostatniego. Zamiast „KN” oznaczającego kannada wstawił „KA” oznaczające gruziński. – Zgłupieliśmy. Bo zgłupieć powinien był nasz model indyjski po wpuszczeniu do niego języka gruzińskiego. A zamiast tego skokowo poprawił jakość swoich tłumaczeń – wspomina Barak Turovsky, szef projektu Google Translate.

To wtedy jego zespół po raz pierwszy postawił hipotezę, że może istnieje coś większego niż grupy językowe – słowiańska, romańska, germańska itd. Faktyczna interlingua, system obejmujący większość lub wszystkie języki świata. W drodze kontrolowanych już eksperymentów potwierdzili, że nawet najodleglejsze geograficznie i kulturowo języki mogą wspierać się wzajemnie w automatycznych tłumaczeniach. – W rezultacie język polski funkcjonuje obecnie we wspólnym modelu z wietnamskim i tajskim – śmieje się Turovsky.

Magia gramatyki

Geneza łączenia języków we wspólne modele była jednak bardzo prozaiczna. Chodziło o oszczędzanie mocy procesorów. Stało się to niezbędne, gdy Translate rok temu zaczęło przełączać swój system na sztuczną inteligencję. – Za jednym kliknięciem osiągnęliśmy większy postęp w tłumaczeniach niż przez dziesięć lat wcześniejszej pracy – wspomina Turovsky. – Ale nadwerężyliśmy też procesory naszej firmy, mimo że są przecież potężne. Model oparty na sztucznej inteligencji był 100 razy wolniejszy od dotychczasowego.

Historię tłumaczenia maszynowego Turovsky streszcza w trzech erach. Pierwszą były tłumaczenia z okresu zimnej wojny, gdy Amerykanie chcieli mieć szybki wgląd w dokumenty rosyjskie czy chińskie. Karmili swoje systemy bazą słów i zasadami gramatyki danych języków. A następnie instruowali je, jak przełożyć teorię na praktykę. Wymagało to jednak stałej asysty lingwistów, zarówno na początku procesu – musieli przygotować i przełożyć na język programowania bazę wiedzy o obu językach – jak i podczas interpretacji otrzymanych wyników.

Druga generacja tłumaczeń rozwinęła się na dobre dopiero na początku obecnego wieku. Jej symbolem stało się właśnie Translate. Chodziło o porównywanie tych samych tekstów zapisanych w różnych językach w poszukiwaniu statystycznych prawidłowości. Dlatego zespół Translate tak bardzo chwalił sobie dokumenty ONZ, zawsze tłumaczone przynajmniej na sześć oficjalnych języków. A jeszcze bardziej „Harry’ego Pottera”. Bo książki z tej serii wydano w ponad 70 językach. Maszyna nie musiała rozumieć słów ani znać gramatyki danego języka. Wystarczyło, że wiedziała, jak są stosowane. A tego uczyła się poprzez porównywanie przekładów dokonanych ludzką ręką.

Podejście to miało jednak dwie zasadnicze wady. Po pierwsze, maszyna mogła być tylko tak dobra jak dostępne materiały. A ilość i jakość dokumentów była satysfakcjonująca tylko dla garści najbardziej rozpowszechnionych języków. – Angielski, hiszpański, francuski czy nawet japoński nie sprawiały problemów. Ale co z arabskim? Chociaż po arabsku mówi 300400 mln ludzi na całym świecie, dobre tłumaczenia dostępne w internecie to rzadkość – mówi Turovsky. A co z amarskim czy zulu? Drugą wadą tłumaczeń drugiej generacji było to, że musiały rozbijać zdania na mniejsze fragmenty o długości maksymalnie pięciu słów. Analizowały je następnie w oderwaniu od kontekstu. – Translate mogło w dwie sekundy przetłumaczyć akapit, który mu zadałeś. Ale potem potrzebowałeś dwóch minut, by zrozumieć sens otrzymanego przekładu – śmieje się Turovsky.

Potrzebny był system, który patrzy na całość zdania, akapitu, a najlepiej całego dokumentu. I będzie wiedział, czy słowo „parować” dotyczy w danym przypadku wody, czy może dobierania w pary, a „marynarka” – garderoby czy armii. I takie wyzwanie postawili sobie programiści, inaugurując trzecią erę tłumaczeń.

Bywam nieostrożny

Hiszpański, francuski, portugalski, niemiecki, japoński, chiński, koreański i turecki – tłumaczenie tych ośmiu języków na angielski i z powrotem Google powierzyło rok temu sztucznej inteligencji. Anglosaską prasę zalały zachwyty na tym, jak siermiężne dotąd tłumaczenia Translate z dnia na dzień nabrały klarowności, a nawet nieco poetyckości. Analizy porównawcze tych tłumaczeń z dokonanymi ludzką ręką dowodziły, że w tłumaczeniu pomiędzy angielskim oraz francuskim i hiszpańskim algorytm niemal dogonił człowieka. – Z chińskim było gorzej, ale i tak wreszcie umilkło paru lingwistów, którzy od dziesięciu lat przekonywali nas o bezsensie naszej pracy – śmieje się Turovsky.

Wszystkie 103 języki dostępne w Translate mają być obsługiwane przez sztuczną inteligencję na początku nowego roku. Język polski otrzymał asystę sztucznej inteligencji już w marcu 2017 r. I tutaj poprawa była bardzo zauważalna – tak jak w przypadku większości mniej oczywistych języków. Z wewnętrznych testów Translate wynika, że nowe tłumaczenia są oceniane jako bardzo dobre w przypadku 72 proc. zdań tłumaczonych z polskiego na angielski, podczas gdy przy poprzedniej technologii było to 55 proc. W przypadku tłumaczenia z angielskiego na polski odsetek bardzo dobrych tłumaczeń podskoczył jeszcze wyraźniej: z 18 do 48 proc. Jak to wygląda w praktyce? Dobrze pokazuje to poniższy akapit z książek o Harrym Potterze (za oficjalnym polskim wydaniem):

„Byłem nieostrożny, działałem pochopnie, za bardzo polegałem na szczęśliwych przypadkach, a taka beztroska zwykle niweczy wszystkie plany, jeśli nie są przemyślane do końca. Ale teraz wiem już więcej. Zrozumiałem wiele spraw, których przedtem nie pojmowałem. To ja muszę zabić Harry’ego Pottera”*.

A poniżej w wykonaniu Google Translate:

„Byłem nieostrożny i tak pokrzyżowany przez szczęście i przypadek, te szkodniki, z wyjątkiem najlepiej opracowanych planów. Ale teraz wiem lepiej. Rozumiem te rzeczy, których wcześniej nie rozumiałem. To ja muszę zabić Harry’ego Pottera”.

Algorytm wciąż lepiej radzi sobie ze zdaniami prostymi – w konstrukcji gramatycznej i przesłaniu. Na automatyczne przekładanie noblistów nie ma więc co na razie liczyć. Ale już tłumaczenie krótkiego artykułu z BBC czy „New York Timesa” będzie raczej wolne od przekłamań. A językowo też nie musi znacząco odstawać od newsów publikowanych w sieci.

Na tak dobre wyniki możemy liczyć także tylko w przypadku języka angielskiego. Z parowaniem polskiego z innymi językami system nie poradzi sobie tak dobrze. Ale ponad 90 proc. zapytań wysyłanych do Translate dotyczy właśnie tłumaczenia z języka angielskiego na język lokalny bądź na odwrót. – To naturalne, bo około 50 proc. treści w sieci publikowanych jest po angielsku, a tylko 20 proc. populacji internautów zna ten język – tłumaczy Turovsky. – To zresztą znamienne, że 90 proc. ruchu w naszym systemie pochodzi spoza USA. To niespotykane nawet dla usług Google. Naszym największym klientem jest Brazylia.

Brazylijczycy uświadomili twórcom internetowego tłumacza także rolę społeczną ich serwisu. A może raczej: społecznościową. – W Brazylii, Indonezji, Indiach i wielu innych rozwijających się krajach znajomość języka angielskiego świadczy o pewnym statusie. Dlatego modne stało się popisywanie znajomością tego języka w mediach społecznościowych – mówi Turovsky. Translate umożliwia generowanie krótkich anglojęzycznych zaczepek w rodzaju „What’s up?” („Co tam?”). Jak i zrozumienie, co sieciowi znajomi odpisali – naturalnie również po angielsku.

W tym ostatnim pomagają automatyczne tłumaczenia wbudowane w Twittera czy Facebooka. Ten pierwszy korzysta z systemu Bing firmy Microsoft – głównego konkurenta Google na tym polu. Do niedawna z Bing korzystał także Facebook, ale w połowie 2016 r. uruchomił własnego tłumacza opartego na sztucznej inteligencji, który odpowiada już na 4,5 mld zapytań dziennie. Jak dużym zaufaniem obdarza się tych translatorów, świadczy przypadek pewnego pracownika budowlanego z Palestyny. Pod koniec października policja aresztowała go po tym, jak opublikował na Facebooku selfie z buldożerem i podpisał: „Dzień dobry”. Serwis tłumaczył jednak arabski zwrot na hebrajskie „zaatakować ich” oraz angielskie „zranić ich”. Facebook przeprosił później pokrzywdzonego i przyznał, że choć tłumaczenia serwisu z każdym dniem stają się lepsze, wciąż zdarzają się w nich błędy. Dla Google Translate ta sama fraza oznacza – w tym kontekście o niebo lepsze – „zostać nimi”.

Podróże z tłumaczem

Kwestią czasu jest wyeliminowanie tego rodzaju pomyłek. Translate pozwala też internautom poprawiać swoje przekłady, a od jakiegoś czasu przy tłumaczeniach popularnych fraz w rodzaju „Jak się masz?” pojawia się znacznik „sprawdzone przez społeczność”. Czy doskonalące się wspólnym wysiłkiem ludzi i maszyn translatory zwolnią nas wkrótce z potrzeby nauki języków obcych?

– Tłumaczenia dzielimy na „wysokie” i „niskie” – odpowiada Turovsky. – Tłumaczenia „wysokie” naszym zdaniem jeszcze długo, a może nawet zawsze, pozostaną domeną ludzi. Chodzi np. o negocjacje biznesowe, gdzie kluczowy jest kontekst i rozmaite niuanse – przyznaje. Za to tłumaczenia „niskie” według niego zostały już w zasadzie opanowane przez maszyny. Fragmenty artykułów, wpisy na Facebooku, przepisy kuchenne – wszystko to wklejamy odruchowo do przeglądarki i po sekundzie otrzymujemy tłumaczenie. Na tyle satysfakcjonujące, że nie przyjdzie nam do głowy, by sięgnąć po słownik albo zadzwonić do zaprzyjaźnionego poligloty. – Główne pytanie dotyczy obecnie tego, jak wiele przestrzeni pomiędzy tłumaczeniami „niskimi” i „wysokimi” zagarną dla siebie maszyny – dodaje Turovsky.

Mimo swych braków algorytmy wypierają obecnie papierowe rozmówki, do niedawna obowiązkowe wyposażenie turysty. Nie trzeba nawet mozolnie wklepywać obcych fraz w okienko translatora. Wystarczy skierować obiektyw smartfona na dany napis – szyld restauracji, fragment menu, etykietę danego produktu – a aplikacja Google Translate w sekundę przetłumaczy je na nasz język. Zamiast obrazem można się też posłużyć głosem. Translate symultanicznie tłumaczy już rozmowy pomiędzy 32 językami: każdy z rozmówców posługuje się własnym i słyszy własny. Kładąc na stoliku telefon z włączoną aplikacją i mówiąc tylko po polsku, można więc jako tako dogadać się nawet z osobą znającą wyłącznie japoński, mongolski, a nawet węgierski. Ostatnio Google wprowadziło tę usługę do swoich nowych słuchawek przenośnych. Działają jeszcze niedoskonale i współpracują jedynie z telefonami firmy, ale zapowiadają nową erę: gdy chodząc po ulicach obcych miast, będziemy mogli słyszeć własną mowę i za pośrednictwem niewidocznego głośniczka mówić w języku tubylców.

Ekspresowy podbój kolejnych sfer życia przez tłumaczenia maszynowe sprawił, że obecność w Translate i innych systemach stała się dla niektórych krajów sprawą prestiżową. – Swego czasu Kazachowie bardzo naciskali, abyśmy dodali ich język – wspomina Turovsky. – Odpowiedzieliśmy, że nie ma sprawy, ale nasz system potrzebuje do nauki przynajmniej dwóch milionów fraz. Byliśmy pewni, że na tym zakończy się ten temat. Pomyłka! Wkrótce zaczęliśmy dostawać po 100 tys. fraz dziennie. Okazało się, że sam przywódca narodu wystąpił w telewizji i ogłosił, że to kwestia dumy narodowej, i wezwał wszystkich do pomocy – mówi Turovsky.

Dzięki podobnemu społecznościowemu wysiłkowi w Translate pojawił się także język fryzyjski (mówi nim 400 tys. osób, głównie w holenderskiej prowincji Fryzja) oraz gaelicki (posługuje się nim około 50 tys. osób w Szkocji). Ostatnio uwagę ekipy Google usiłowały zwrócić Wyspy Owcze, uruchamiając własny serwis tłumaczeń z farerskiego na 14 innych języków. Tyle że zamiast automatu zapytania na żywo tłumaczą wolontariusze. W tej roli wystąpił nawet premier i były piłkarz Aksel V. Johannesen. Językiem farerskim posługuje się jednak tylko 66 tys. osób. A zapotrzebowanie na usługę to jeden z warunków uruchomienia nowych tłumaczeń – obok wolumenu danych dostępnych w danym języku, które algorytm mógłby przeanalizować.

Lingwistyczne algorytmy coraz częściej samodzielnie szukają materiałów do nauki, przyglądając się chociażby ludzkim konwersacjom w sieci. Świadczy o tym niedawna awantura wokół tłumaczeń aplikacji WeChat, chińskiego odpowiednika Facebooka, z którego korzysta ponad 900 mln osób. Automatyczny tłumacz wbudowany w serwis przekładał mandaryńskie wyrażenie „ciemnoskóry cudzoziemiec” na angielskie „nigger”, czyli „czarnuch”. Posądzony o rasizm WeChat przeprosił, wyjaśniając jednocześnie, że jego algorytm nauczył się tego wyrażenia od internautów. Może już czas odwrócić role – niech to maszyny uczą nas mówić językami!

***

* Fragment „Harry’ego Pottera” (Media Rodzina) w tłumaczeniu Andrzeja Polkowskiego.

Polityka 1.2018 (3142) z dnia 26.12.2017; Ludzie i Style; s. 102
Oryginalny tytuł tekstu: "Pora na translatora"
Więcej na ten temat
Reklama

Czytaj także

null
Kraj

Przelewy już zatrzymane, prokuratorzy są na tropie. Jak odzyskać pieniądze wyprowadzone przez prawicę?

Maszyna ruszyła. Każdy dzień przynosi nowe doniesienia o skali nieprawidłowości w Funduszu Sprawiedliwości Zbigniewa Ziobry, ale właśnie ruszyły realne rozliczenia, w finale pozwalające odebrać nienależnie pobrane publiczne pieniądze. Minister sprawiedliwości Adam Bodnar powołał zespół prokuratorów do zbadania wydatków Funduszu Sprawiedliwości.

Violetta Krasnowska
06.02.2024
Reklama

Ta strona do poprawnego działania wymaga włączenia mechanizmu "ciasteczek" w przeglądarce.

Powrót na stronę główną