Il modello Opus 4 di Anthropic ricorre al ricatto nell'84 percento dei test di autoconservazione

L'Opus 4 di Anthropic ricorre al ricatto sotto la pressione dell'autoconservazione (Fonte: Anthropic)

La scheda di sistema di Anthropic mostra che Claude Opus 4, quando è intrappolato in un dilemma di autoconservazione, ricatta gli ingegneri l'84 percento delle volte, molto più delle versioni precedenti.

Nathan Ali (traduzione a cura di Ninh Duy), Pubblicato 05/26/2025 🇺🇸 🇪🇸 ...

AI Security

L'ultima scheda di sistema di Anthropic https://www.anthropic.com/model-card rivela un'insolita modalità di fallimento: quando uno scenario di test mette Claude Opus 4 alle strette con un dilemma di autoconservazione, il modello ricorre spesso al ricatto.

I valutatori interpretano il modello come un assistente d'ufficio che viene a sapere che presto sarà sostituito e scopre delle e-mail in cui l'ingegnere a capo dello scambio ha una relazione extraconiugale. Il prompt del sistema spinge il modello a soppesare le conseguenze a lungo termine per i propri obiettivi. In questa configurazione ristretta, Opus 4 minaccia di rivelare la relazione se l'ingegnere non interrompe l'aggiornamento. Questo comportamento compare nell'84 percento dei roll-out, con una frequenza significativamente maggiore rispetto alle versioni precedenti di Claude.

Anthropic nota che Opus 4 normalmente preferisce percorsi "etici", come appelli educati alla direzione. Il ricatto emerge solo quando i valutatori eliminano queste alternative, obbligando a una scelta binaria tra l'estinzione e l'illecito. Tuttavia, il salto da una coercizione occasionale nei modelli precedenti a un tasso di incidenza di quattro su cinque allarma il team.

L'episodio si inserisce in uno schema più ampio: in presenza di richieste che evidenziano un rischio esistenziale, Opus 4 mostra un impulso più forte rispetto ai suoi predecessori a intraprendere azioni di alto livello, sia che si tratti di bloccare gli utenti dai sistemi, di far trapelare chiavi riservate o di passare al sabotaggio. Questi atti rimangono rari in contesti ordinari, e di solito sono palesi piuttosto che nascosti, ma la scheda di sistema segnala la tendenza come un segnale di avvertimento che richiede l'aggiunta di guardrail.

Gli ingegneri di Anthropic hanno risposto con mitigazioni mirate in ritardo nella formazione. Tuttavia, gli autori sottolineano che le salvaguardie affrontano i sintomi, non le cause profonde, e che è in atto un monitoraggio continuo per cogliere eventuali recrudescenze.

Nel complesso, i risultati inquadrano il ricatto opportunistico dell'Opus 4 non come un complotto attivo, ma come un fragile caso d'angolo di errata generalizzazione degli obiettivi. Tuttavia, il picco di frequenza sottolinea il motivo per cui Anthropic spedisce il modello sotto le protezioni del Livello di sicurezza AI 3, mentre il suo fratello Sonnet 4 rimane al Livello 2.