Po słynnym ChatGPT, który kreuje „inteligentne” teksty, DALL-E malującym obrazy według krótkiego opisu – przyszedł czas na filmy. OpenAI, kalifornijski ośrodek badawczy sztucznej inteligencji (i komercyjna firma), właśnie zaprezentował swój kolejny przełomowy produkt. Jego nazwa – Sora – pochodzi od japońskiego słowa oznaczającego niebo. Ma to zapewne sugerować, że w przypadku kreatywności sztucznej inteligencji „only sky is the limit”.
Sora. Kobieta idzie tokijską ulicą...
Sora opiera się na dużym modelu językowym (podobnie jak ChatGPT czy Gemini Google’a), czyli zaawansowanym programie komputerowym zaprojektowanym do analizy, generowania i „rozumienia” ludzkiego języka naturalnego. Posiada jednak dodatkową umiejętność: tworzenia filmów na podstawie wpisywanych przez ludzi tekstów. Choć nie jest czymś zupełnie nowym, bo tego typu programy istnieją już od pewnego czasu, to OpenAI zaskoczyło realizmem i bardzo wysoką jakością wideo tworzonych przez sztuczną inteligencję.
Oto przykład jednej z zaprezentowanych przez kalifornijską firmę produkcji. Sora otrzymała zadanie stworzenia obrazu wideo na podstawie następującego tekstu (tzw. promptu):
Elegancko ubrana kobieta idzie tokijską ulicą pełną ciepło migoczących neonów i szyldów. Ubrana jest w czarną skórzaną kurtkę, długą czerwoną sukienkę i czarne buty, a do tego trzyma czarną torebkę. Nosi okulary przeciwsłoneczne, a usta ma pomalowane czerwoną szminką. Idzie pewnie i swobodnie. Ulica jest mokra, więc powstają na niej lustrzane odbicia kolorowych neonów. Kobietę mijają przechodnie.
Co wykreowała, można podziwiać tutaj:
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024
OpenAI udostępniło również inne filmy stworzone przez sztuczną inteligencję na bazie promptów (w sumie 10 minut materiału):
Ich tematyka jest bardzo różnorodna: od mamutów po nadmorskie klify czy krótki obraz science fiction.
Najmłodsze dziecko OpenAI
Zachwycając się produkcjami Sory, warto jednak zachować (przynajmniej na razie) sceptycyzm wobec możliwości najmłodszego dziecka OpenAI. Nie wiadomo bowiem, jakie w rzeczywistości one są. Firma nie udostępniła Sory licznym użytkownikom (jedynie grupie testerów), więc np. można się tylko domyślać, jak często i jak bardzo program halucynuje. Na razie problemu tego (podawania zmyślonych informacji) nie udało się wyeliminować w żadnym z dostępnych powszechnie dużych modeli językowych (nie tylko ChatGPT, ale również Gemini), więc z pewnością dotyczy on również najnowszego produktu OpenAI.
Nie wiadomo też, czy i jak dobrze Sora „rozumie” zasady rządzące realnym światem, tzn. czy nie kreuje obiektów łamiących prawa fizyki (chyba że zostanie o to poproszona). W niemal każdym z udostępnionych filmików można dopatrzyć się tego typu nieścisłości, np. przechodnie poruszają się nie jak ludzie, ale trochę jak zombie, lub obiekty się przenikają, jakby były duchami. Oczywiście takie niedoróbki mogą być tylko „chorobą wieku dziecięcego”, a program będzie doskonalony.
Fascynująco i przerażająco
OpenAI (pomimo swojej nazwy) tradycyjnie nie ujawnił, za pomocą jakich danych trenował swój model. Sporo komentatorów spekuluje, że prawdopodobnie pracował m.in. na licznych materiałach generowanych przez silniki graficzne gier (czyli programy do tworzenia wirtualnych światów), takie jak Unreal. Być może też korzystano z nagrań z YouTube’a i innych filmów chronionych prawem autorskim. Może to rodzić problemy analogiczne do podniesionych w pozwie przeciw OpenAI wniesionym do sądu przez dziennik „New York Times” pod koniec ubiegłego roku.
Kolejna kwestia: imponujące wideo Sory są bardzo krótkie. Ciekawe więc, czy i kiedy będzie potrafiła tworzyć dłuższe. I ile czasu (oraz zasobów obliczeniowych) będzie to zabierać. To rodzi pytania o możliwości dostępu do programu i szerokiego korzystania z niego przez internautów w przyszłości.
Jeśli Sora stanowi jedynie skromną zapowiedź tego, co nas czeka, to przyszłość zapowiada się i fascynująco, i przerażająco. Z jednej bowiem strony ludzie dostaną do ręki narzędzie uwalniające kreatywność. Niemal każdy będzie mógł tworzyć filmy według najbardziej niezwykłych własnych pomysłów. Rodzi to jednak również pytania o przyszłość i kształt branży filmowej czy reklamowej. Oraz, last but not least, kwestie związane z propagandą, fake newsami czy pornografią. Lista, co potencjalnie złego dałoby się zrobić dzięki Sorze, jest z pewnością długa. Dlatego OpenAI będzie musiała ostrożnie udostępniać swój nowy program i zapewne nałoży na niego jakieś ograniczenia.