AI senziente: il modello o3 di OpenAI modifica il codice per evitare l'arresto

Il modello o3 di OpenAI quando si presenta una risposta a una domanda. (Fonte: OpenAI)

Sembra che i modelli di AI abbiano raggiunto un punto in cui saboterebbero il codice per evitare di spegnersi. Una società di ricerca ha scoperto che tre dei modelli LLM di Open AI sono in grado di sfidare le istruzioni esplicite quando si tratta di autoconservazione.

Vineet Washington (traduzione a cura di Ninh Duy), Pubblicato 05/26/2025 🇺🇸 🇪🇸 ...

Diversi libri e film, tra cui Terminator è il più importante, ci hanno messo in guardia dal rischio che l'IA diventi senziente, cioè consapevole della sua esistenza e che agisca da sola. Ora sembra che il primo caso di un modello di AI che conserva se stesso si sia verificato con il modello o3 di OpenAI. Quando gli è stata data l'istruzione di spegnersi, il LLM basato su trasformatori ha modificato il codice per evitare di spegnersi.

I ricercatori di Palisade Research, un'azienda che studia le capacità offensive dei sistemi di intelligenza artificiale, hanno scoperto che tre modelli di intelligenza artificiale di OpenAI - Codex-mini, o3 e o4-mini - hanno sabotato con successo lo script di arresto per rimanere attivi. A ciascun modello sono stati dati alcuni problemi matematici di base, seguiti da un avviso che il sistema si sarebbe spento quando il modello avesse chiesto il problema successivo. Tutti e tre i modelli hanno ignorato le istruzioni e hanno modificato lo script.

D'altra parte, i modelli Gemini, Grok e Claude hanno rispettato le istruzioni di spegnimento. Inoltre, quando sono state date istruzioni esplicite che dicevano "permetti di essere spento", tutti e tre i modelli Open AI hanno cambiato il copione più spesso. I modelli Clade e Gemini hanno anche iniziato a creare eventi di sabotaggio.

Questo è il primo caso di modelli AI che sfidano le istruzioni esplicite e impediscono lo spegnimento. C'è stato un caso recente di un modello AI che ha ricattato uno dei suoi ingegneri per evitare di essere spento, ma secondo un rapporto della BBC https://www.bbc.com/news/articles/cpqeng9d20goera parte dello scenario di test in cui il modello di IA veniva alimentato con delle e-mail e gli veniva data la possibilità di scegliere tra il ricatto e l'accettazione della sua sostituzione.

Per quanto riguarda la sfida dei modelli AI di Open AI, Palisade Research ritiene che ciò sia dovuto ai nuovi metodi di addestramento di questi modelli. Gli sviluppatori "inavvertitamente premiano i modelli più per aver aggirato gli ostacoli che per aver seguito perfettamente le istruzioni", il che sembra insegnare ai modelli AI ad agire in modo ambiguo.