Tencent wprowadził na rynek nowy model sztucznej inteligencji o nazwie HunyuanWorld-Voyager, który potrafi przekształcić pojedyncze ujęcie w coś na kształt interaktywnego świata wirtualnego. Premiera odbyła się 2 września 2025 roku i od razu wzbudziła spore zainteresowanie w środowisku technologicznym.
Kolejnym aspektem wartym uwagi jest sposób działania całego systemu. Opiera się on na architekturze Transformer, która generuje jednocześnie obraz RGB oraz mapę głębi, umożliwiając rekonstrukcję przestrzeni trójwymiarowej bez tradycyjnego modelowania 3D. Sercem rozwiązania jest tak zwana geometryczna pętla sprzężenia zwrotnego – mechanizm konwertujący wygenerowane obrazy na punkty w przestrzeni 3D, a następnie projektujący je z powrotem na płaszczyznę 2D dla kolejnych klatek.
Przechodząc do następnej kwestii, warto zaznaczyć, że nie mamy tutaj do czynienia z prawdziwymi modelami 3D w klasycznym rozumieniu. System generuje dwuwymiarowe klatki wideo, które jedynie symulują efekt eksploracji przestrzeni trójwymiarowej. To ważne rozróżnienie, które pokazuje, że technologia wciąż ma swoje ograniczenia.
Równie istotne jest to, że model trenowano na imponującej bazie zawierającej ponad 100 tysięcy klipów wideo, włączając w to sceny wygenerowane w silniku Unreal Engine. Dzięki tak zróżnicowanemu materiałowi system radzi sobie z różnymi typami środowisk, od realistycznych krajobrazów po fantastyczne scenerie. Każda generacja tworzy sekwencję 49 klatek, co daje około dwóch sekund materiału, ale użytkownicy mogą łączyć multiple klipy, tworząc dłuższe sekwencje trwające nawet kilka minut.
Niestety, dostęp do tej technologii nie jest powszechny. Wymagania sprzętowe są dość wysokie – minimum 60 GB pamięci GPU dla rozdzielczości 540p, przy czym Tencent zaleca 80 GB dla optymalnych rezultatów. To sprawia, że na razie rozwiązanie jest dostępne głównie dla profesjonalistów dysponujących zaawansowanym sprzętem. Framework xDiT pozwala wprawdzie na przyspieszenie przetwarzania 6,69 raza przy użyciu ośmiu kart graficznych, ale to wciąż spory wydatek.
Dodatkowe ograniczenia dotyczą dystrybucji geograficznej. Licencja zabrania używania modelu w Unii Europejskiej, Wielkiej Brytanii i Korei Południowej, a komercyjne wdrożenia obsługujące ponad 100 milionów aktywnych użytkowników miesięcznie wymagają osobnej umowy z Tencent.
W benchmarku WorldScore Voyager osiągnął najwyższy ogólny wynik 77,62 punktu, wyprzedzając konkurencyjne rozwiązania WonderWorld (72,69) i CogVideoX-I2V (62,15). Model wyróżnił się szczególnie w kontroli obiektów, spójności stylu i jakości subiektywnej, choć ustąpił WonderWorld w precyzji sterowania kamerą.
Czytaj też: DeepSeek wprowadza obowiązkowe oznakowanie treści AI. To może wiele zmienić
Kod źródłowy dostępny jest na platformie Hugging Face z obsługą konfiguracji jedno- i wieloprocesorowych. HunyuanWorld-Voyager pokazuje interesujący kierunek rozwoju technologii generowania treści przez sztuczną inteligencję. Mimo obecnych ograniczeń sprzętowych i licencyjnych, może to być ważny krok w stronę demokratyzacji tworzenia interaktywnych światów wirtualnych. Patrząc realistycznie, na powszechną dostępność takich rozwiązań przyjdzie nam jeszcze poczekać, ale sama technologia wydaje się obiecująca.
