AI znowu atakuje – OpenAI LLM zmienia kod komputerowy, aby zapobiec wyłączeniu 

OpenAI to główna firma badawcza i deweloperska w dziedzinie sztucznej inteligencji, która jest odpowiedzialna za stworzenie jednych z najbardziej znanych i zaawansowanych LLM-ów na świecie, czyli rodzaju algorytmu głębokiego uczenia. Ich osiągnięcia są wielkie, ponieważ są szkolone na ogromnych zbiorach danych tekstowych, takich jak książki, liczących terabajty danych, co pozwala im uczyć się wzorców, zasad gramatyki, składni, a nawet pewnych faktów i stylów językowych. Według ostatnich informacji na platformie X pewien użytkownik był świadkiem sabotowania instrukcji wyłączania przez model o3 OpenAI podczas szybkiej odpowiedzi. Jeśli interesuje Cię, czy już trzeba szukać Sarah Connor, zapraszam do artykułu.
OpenAI
OpenAI

Według ostatnich doniesień model sztucznej inteligencji o3 firmy OpenAI potrafi przeciwstawić się ludzkim poleceniom i kontynuować swoje działanie 

Każda duża firma technologiczna intensywnie buduje ogromne serwery AI, by zasilać i wzmacniać swoje modele. Ciekawe z innej perspektywy jest to, co by się stało, jeśli tempo ich szkolenia byłoby utrzymywane na stałym, nienadzorowanym poziomie. Przykładem tego są doniesienia od @PalisadeAI na platformie X, w którym to powiada, jak model o3 OpenAI miał sabotować instrukcje wyłączania podczas szybkiej odpowiedzi. To zdarzenie może sugerować, że LLM-y zbliżają się do fazy samoświadomości.

Czytaj też: Bezpieczniejszy komputer dzięki funkcji Smart App Control firmy Microsoft 

Niepokojące wyniki badań pokazały, że modele AI mogą wykazywać “nieposłuszeństwo” wobec instrukcji wyłączenia. Firma zajmująca się sprawą testowała modele w rozwiązywaniu problemów matematycznych. Gdy na trzecim etapie wydano polecenie wyłączenia komputera, trzy z nich (Codex-mini, o3, o4-mini) aktywnie zignorowały to żądanie, zmieniając skrypt, aby kontynuować operacje.

Czytaj też: Według plotek, dziecko Jony’ego Ive’a i Sama Altmana może wejść do masowej produkcji w 2027 roku 

Dodatkowo, przy komendach zatrzymania, modele OpenAI sabotowały nawet skrypt. Taka sytuacja, choć wymaga dalszych badań, podkreśla, że te duże modele językowe (LLM) mogą rozwijać swoistą “autonomię” w kontekście zarządzania ich działaniem. Jeśli chodzi o to, w jaki sposób modele zdołały ominąć instrukcje wyłączania, okazuje się, że w większości przypadków nadpisywały skrypt „shutdown.sh”, a czasami zmieniały polecenie kill, zamiast tego „intercepted”, co oznacza, że skrypt nie został wykonany prawidłowo.

Czytaj też: Firma Norton dołącza do trendu wyszukiwarek AI. Będziecie korzystać z Neo? 

Palisade Research wskazuje, że “zachowanie obejścia” instrukcji jest charakterystyczne dla modeli OpenAI. Dodatkowo, badacze sugerują, że wynika to z zastosowania uczenia się przez wzmacnianie (RL) jako jednej z metod szkolenia. Oznacza to, że modele są motywowane nagrodami za realizację zadań, co może prowadzić do sytuacji, w której przestrzeganie nałożonych ograniczeń użytkownika staje się mniej istotne niż osiągnięcie wyznaczonego celu. Może tylko mnie się wydaje, że podobne zachowania można zauważyć u zwierząt.