Nie, Nvidia nie pozbawiła pisarzy pracy. Tworzę gry i wiem, że ta rewolucja jest wydmuszką

Mam dziwne przeczucie, że w ciągu następnych dni będziecie mogli przeczytać wiele artykułów na temat tego, jak to Nvidia pozbawiła pisarzy pracy, prezentując Avatar Cloud Engine. Tyle tylko, że to nieprawda. Tak się składa, że mam w tym nieco doświadczenia i jestem przekonany, że to niemożliwe.
Nie, Nvidia nie pozbawiła pisarzy pracy. Tworzę gry i wiem, że ta rewolucja jest wydmuszką

Czym jest Nvidia Avatar Cloud Engine?

Zapewne słyszeliście o tym, lub widzieliście to nie raz. Od dawna w sieci krążą prezentacje, na których gracz podchodzi do postaci w grze, zaczyna z nią rozmowę, formułując dowolnie swoje kwestie przez mikrofon lub tekst, a sztuczna inteligencja interpretuje je i zaczyna na nie odpowiadać ustami NPC. Tyle tylko, że tym razem to Nvidia postanowiła wejść w tę niszę swoją technologią Avatar Cloud Engine i choć chciałbym powiedzieć, że to początek rewolucji, to nie jestem do tego zbyt przekonany. 

Czytaj też: Będzie w co grać. Oto najciekawsze nowości z PlayStation Showcase 2023

Avatar Cloud Engine (ACE) to nic innego, jak kolejny przykład technologii napędzanej sztuczną inteligencją, która w tym szczególnym przypadku umożliwia graczom prowadzenie naturalnych rozmów z postaciami niegrywalnymi (NPC) w grze i otrzymywania odpowiedzi utrzymanych w konkretnych kontekście. Brzmi to wszystko świetnie, ale jestem prawie pewny, że ACE nigdy nie trafi do żadnej gry AAA w takiej formie, jakiej moglibyście oczekiwać. Oczywiście o ile nie rozwinie się na tyle, że wyczuwalne w głosie postaci “falloutowe drewno” przejdzie do historii, ale wtedy będzie mowa raczej o pozbawieniu pracy aktorów głosowych, a nie pisarzy.  

Zanim jednak przejdę do wyjaśniania, dlaczego Avatar Cloud Engine nie ma tak wielkiego potencjału, jak z pozoru może się wydawać, przeanalizujmy materiał, który udostępniła Nvidia. Widzimy na nim nic innego, jak tradycyjny moment w wielu grach trzecioosobowych, w którym to gracz wchodzi do bezpiecznej przystani (karczmy, baru, restauracji) i rozpoczyna rozmowę z wszystkowiedzącym karczmarzem, barmanem lub kelnerką, aby posunąć fabułę do przodu lub dowiedzieć się czegoś nowego. 

Tyle tylko, że gracz nie wybiera żadnej opcji dialogowej. Po rozpoczęciu rozmowy z jegomościem w futurystycznym lokalu sam formułuje swoje linie dialogowe i wypowiada je do mikrofonu. Następnie postać odpowiada. Nieco sztywno, ale w ogólnym rozrachunku precyzyjnie i na temat, opowiadając, jak to jego życie się pogorszyło i co możemy z tym zrobić. Dostajemy wskazówki, garść informacji na temat tego, jak możemy pomóc postaci niezależnej i tak oto finalnie dostajemy powiadomienie z informacją, że rozpoczęliśmy nową misję poboczną. 

Rozłóżmy więc materiał na czynniki pierwsze. Gracz rozpoczyna rozmowę, klikając jeden z klawiszy, co odpowiada za aktywowanie sekwencji dialogowej po stronie silnika gry i “mówi” NPC za ladą, że teraz “ma słuchać”. Słuchać nie w sensie, do którego przyzwyczaiła nas branża (czytaj: nie aktywować konkretnych dialogów zależnie od naszych poczynań i wyborów w grze), a rzeczywiście słuchać tego, co ma do powiedzenia gracz i stosownie na nie reagować. Tyle tylko, że postać nie wymyśla wszystkiego na bieżąco, a doskonale wie, co ma do powiedzenia. 

Czytaj też: Gry ważą coraz więcej i mam tego dość. Deweloperzy muszą wreszcie coś z tym zrobić

Twórcy w tym pokazie musieli nadać temu NPC logikę kryjącą się za daną misją w podobny sposób, jak robiliby to przy tradycyjnym tworzeniu postaci niezależnej. Nie jest to przypadkowa postać, która zareagowała na ostatnie wydarzenia, a postać normalnie oskryptowana i doskonale wiedząca, co ma powiedzieć graczowi. Innymi więc słowy, Avatar Cloud Engine to nie narzędzie, które ułatwi pracę twórcom przy najważniejszym elemencie fabularnym w grach, czyli misjach oraz głównej fabule. Jestem co do tego pewny.

Sztuczna inteligencja generująca dialogi w grach to (w dużej mierze) kit

Mam teraz wrażenie, że wchodzę w buty grafików narzekających na m.in. Midjourney, ale niestety muszę, bo Nvidia na prezentacji nowej technologii Avatar Cloud Engine nie przedstawiła wcale narzędzia, które wygryzie z branży gier wideo pisarzy. Oczywiście firma też tak nie twierdzi, ale patrząc po liczbie nagłówków na temat zastępowania SI programistów, grafików i nauczycieli, jestem prawie pewny, że tego typu wiadomości wkrótce pojawią się w sieci. Tyle tylko, że będą owocem przemyśleń kogoś, kto z tworzeniem fabuły i dialogów do gier nie miał najpewniej nic wspólnego, albo niekoniecznie był w tym przesadnie dobry.

Zacznijmy od tego, że wrzucanie modelu sztucznej inteligencji do gry tylko po to, żeby coś tam sobie gadało, to nieporozumienie. W gruncie rzeczy takie podejście do tworzenia fabuły oraz dialogów nigdy nie przejdzie w produkcjach, w których opowieść jest jednym z kluczowych elementów. Ba, nawet w grach bez nacisku na fabułę tego typu mechanika będzie bezużytecznym wypełniaczem, z którego gracze skorzystają raz, może dwa razy. 

Właściciel lokalu z ramenem w menu z prezentacji Nvidii jest świetnym przykładem tego, że wykorzystywanie SI w dialogach nie jest wcale ułatwieniem pracy pisarzy przy tworzeniu fabuły. Zanim w ogóle sztuczna inteligencja będzie mogła dojść do głosu, pisarze muszą stworzyć rdzeń fabuły, a następnie obudować składające się na ten rdzeń misje tak, aby po wprowadzeniu zestawu danych dla konkretnych NPC, ci zaczęli mówić z sensem i wskazywać graczowi kolejne etapy misji, nowe lokacje, warte odwiedzenia miejsca lub przynajmniej rozszerzały jego wiedzę o świecie i uniwersum. Te misje to nie jakieś losowe aktywności, a elementy, które pozwalają popchnąć opowieść do przodu i zapoznać gracza z tym, co chcą przekazać twórcy.

Oznacza to, że każda postać będzie musiała mieć i tak rozpisany scenariusz oraz reakcję, aby mówić coś z sensem zarówno dla gry, jak i samej fabuły. Tyle tylko, że mając już scenariusz, po co twórcy mieliby decydować się na model sztucznej inteligencji, który coś tam wprawdzie powie na konkretny temat, ale w sposób, nad którym i tak nie mają wiele kontroli? Po co mieliby zabijać szanse na stworzenie ciekawego dialogu, który będzie mógł rzeczywiście zainteresować gracza i zaryzykować, że SI powie jakąś głupotę, która zniszczy immersję? Tylko po to, żeby sztuczna inteligencja mogła dojść do głosu? To niestety ślepa uliczka, bo dialogi w grach są podstawą tego, jak gracz odbiera fabułę i jak się w nią angażuje. Muszą więc być dopięte na ostatni guzik, nieść za sobą przesłanie i mieć zwyczajny sens w myśl zasady, że jeśli w akcie A pojawiła się strzelba, to w akcie B musi wystrzelić. 

Oczywiście SI można wykorzystać tylko do tego, aby interpretować kwestie wypowiadane przez gracza i następnie dobierać do nich odpowiednie (stworzone przez ludzi) kwestie dialogowe, ale albo zaowocowałoby to zbyt dużą liczbą skryptów dla każdej postaci (i tym samym wywindowało koszty produkcji), albo zabiłoby sam sens wprowadzania SI z tak odgórną kontrolą. Jednak w ogólnym rozrachunku i tak implementacja tego typu systemu wymagałaby ogromu pracy oraz testów. Jestem co do tego przekonany, bo pracuję po obu stronach barykady (tworzenia oraz implementacji) zarówno and prostą fabułą do city-buildera, jak i czegoś znacznie bardziej rozległego w ramach nieogłoszonego jeszcze projektu, gdzie dialogów nie brakuje, a poziom skomplikowania historii rośnie z tygodnia na tydzień. 

Czy Avatar Cloud Engine ma jakikolwiek sens?

Oczywiście w tych rozważaniach odnoszę się do tego, co Nvidia zaprezentowała w ramach Avatar Cloud Engine, a więc do interakcji gracza z postacią nie całkowicie poboczną, a przynajmniej drugoplanową. Postacią, będącą jednym z elementów, które mają sprawić, że gracz uwierzy w świat i przejmie się przedstawioną historią, a więc częścią rozgrywki, która po prostu musi być możliwie najbardziej perfekcyjna, a nie żyła własnym życiem tylko po to, aby SI miało coś do powiedzenia.

Oczywiście narzędzia pokroju Avatar Cloud Engine mają sens, ale tylko wtedy, kiedy wykorzystamy go z pomysłem i nie kosztem najważniejszych misji oraz dialogów. Z takiego generatora mogłyby więc korzystać głównie typowe wypełniacze, czyli wrogowie patrolujący teren, do których się podkradamy, przysłuchując się historyjkom z ich codzienności czy postaci trzecioplanowe, będące jedynie tłem, które żyją własnym życiem i coś tam gadają pod nosem, kiedy przechodzimy obok nich na ulicach miast. Zwykle kwestie dialogowe tych postaci są losowane z danej puli prostych dialogów, a że te musi ktoś napisać i nagrać, to… no cóż, Avatar Cloud Engine mogłoby najpewniej zrobić to znacznie szybciej i taniej.

Dialogi generowane proceduralnie nie są żartem. Serie-tasiemce już je wykorzystują

Tyczy się to zwłaszcza kompleksowych projektów z rozległą fabułą i światem, bo tego typu generowane na bieżąco kwestie zwyczajnie miałyby sens. Wprawdzie wymaga to odpowiednich narzędzi, których wymyślenie i opracowanie jest zwykle trudne, ale już widzę kolejne odsłony serii Assassin’s lub Far Cry, które z takiego systemu mogłyby korzystać, bo po prostu raz opracowane narzędzie tego typu na potrzebę jednej gry byłoby transferowane między innymi zespołami oraz projektami w studiu. Jego implementacja byłaby z kolei stosunkowo prosta dla twórców, bo musieliby wprowadzić do niego jedynie informacje o uniwersum, miejscu, w którym znajduje się postać i to, kim ta postać w ogóle jest, aby napotkany wieśniak w polu nie brzmiał tak, jak królewski herold i nie ogłaszał proroczo nadchodzącego ataku smoków. 

Czytaj też: Gdzie się podziały gry w wersji demo?

Czy więc tego typu narzędzia wygryzą kiedykolwiek pisarzy w grach wideo? Na pewno nie tych, którzy podejmują się wyzwania wykreowania całego uniwersum, stworzenia fabuły i opracowania misji. Jednak te osoby, które zwykle tworzą typowe wypełniacze (losowe dialogi czy kwestie bez większego wpływu na fabułę) mogą poczuć się nieco zagrożone, choć nie tak, jak artyści koncepcyjni w środowisku 2D. Pewne jest z kolei to, że jeśli funkcje tego typu staną się powszechne, to przede wszystkim zwiększą próg wejścia do branży, bo praca początkujących będzie mogła zostać zastąpiona właśnie odpowiednio zaawansowanymi generatorami dialogów.

Inną kwestią jest to, czy aby na pewno sami pisarze potrafią te dialogi pisać

Mam jedynie wątpliwości co do tego, jak takie generowanie na bieżąco sprawdzi się w praktyce, ale nie odpowie na to nikt dopóty, dopóki nie doczekamy się premiery pierwszej gry, która wykorzysta narzędzia pokroju Avatar Cloud Engine. 

PS – po więcej materiałów najwyższej jakości zapraszamy na Focus Technologie. Subskrybuj nasz nowy kanał na YouTubie!