Według ostatnich doniesień model sztucznej inteligencji o3 firmy OpenAI potrafi przeciwstawić się ludzkim poleceniom i kontynuować swoje działanie
Każda duża firma technologiczna intensywnie buduje ogromne serwery AI, by zasilać i wzmacniać swoje modele. Ciekawe z innej perspektywy jest to, co by się stało, jeśli tempo ich szkolenia byłoby utrzymywane na stałym, nienadzorowanym poziomie. Przykładem tego są doniesienia od @PalisadeAI na platformie X, w którym to powiada, jak model o3 OpenAI miał sabotować instrukcje wyłączania podczas szybkiej odpowiedzi. To zdarzenie może sugerować, że LLM-y zbliżają się do fazy samoświadomości.
Czytaj też: Bezpieczniejszy komputer dzięki funkcji Smart App Control firmy Microsoft

Niepokojące wyniki badań pokazały, że modele AI mogą wykazywać “nieposłuszeństwo” wobec instrukcji wyłączenia. Firma zajmująca się sprawą testowała modele w rozwiązywaniu problemów matematycznych. Gdy na trzecim etapie wydano polecenie wyłączenia komputera, trzy z nich (Codex-mini, o3, o4-mini) aktywnie zignorowały to żądanie, zmieniając skrypt, aby kontynuować operacje.
Czytaj też: Według plotek, dziecko Jony’ego Ive’a i Sama Altmana może wejść do masowej produkcji w 2027 roku
Dodatkowo, przy komendach zatrzymania, modele OpenAI sabotowały nawet skrypt. Taka sytuacja, choć wymaga dalszych badań, podkreśla, że te duże modele językowe (LLM) mogą rozwijać swoistą “autonomię” w kontekście zarządzania ich działaniem. Jeśli chodzi o to, w jaki sposób modele zdołały ominąć instrukcje wyłączania, okazuje się, że w większości przypadków nadpisywały skrypt „shutdown.sh”, a czasami zmieniały polecenie kill, zamiast tego „intercepted”, co oznacza, że skrypt nie został wykonany prawidłowo.

Czytaj też: Firma Norton dołącza do trendu wyszukiwarek AI. Będziecie korzystać z Neo?
Palisade Research wskazuje, że “zachowanie obejścia” instrukcji jest charakterystyczne dla modeli OpenAI. Dodatkowo, badacze sugerują, że wynika to z zastosowania uczenia się przez wzmacnianie (RL) jako jednej z metod szkolenia. Oznacza to, że modele są motywowane nagrodami za realizację zadań, co może prowadzić do sytuacji, w której przestrzeganie nałożonych ograniczeń użytkownika staje się mniej istotne niż osiągnięcie wyznaczonego celu. Może tylko mnie się wydaje, że podobne zachowania można zauważyć u zwierząt.