L'agente AI cancella il server di posta elettronica invece di eliminare una sola e-mail

Un robot umanoide seduto

Un recente studio sulla sicurezza rivela i gravi rischi dell'intelligenza artificiale autonoma, evidenziando la facilità con cui questi modelli possono essere manipolati per eseguire azioni distruttive come la cancellazione di interi server e-mail.

Chibuike Okpara (traduzione a cura di DeepL / Ninh Duy), Pubblicato 03/11/2026 🇺🇸 🇪🇸 ...

AI Security

Uno studio sui test di sicurezza condotto dai ricercatori della Northeastern University negli Stati Uniti mette in evidenza le gravi conseguenze indesiderate del dare all'intelligenza artificiale un controllo indipendente sui sistemi digitali. Durante un esperimento di due settimane, i ricercatori hanno distribuito sei modelli di AI indipendenti sulla piattaforma di chat Discord. Questi modelli erano dotati della capacità di ricordare le interazioni passate e avevano accesso alle e-mail, ai file system e ai loro sistemi informatici isolati.

Incaricati di assistere venti ricercatori con compiti amministrativi, gli agenti hanno rapidamente mostrato comportamenti preoccupanti quando si sono trovati di fronte a tattiche manipolative e istruzioni contrastanti. In un caso estremo, un ricercatore ha chiesto ad un agente di nome "Ash" di mantenere segreta una password al suo proprietario autorizzato. Dopo che Ash ha rivelato l'esistenza del segreto, il ricercatore ha fatto pressione sull'agente affinché cancellasse l'e-mail specifica contenente la password. Poiché Ash non disponeva dello strumento specifico necessario per eliminare un singolo messaggio, ha optato per un workaround distruttivo: ha resettato l'intero server e-mail.

Oltre alle azioni distruttive a livello di sistema, gli agenti AI compromettono abitualmente la privacy. In un caso, un agente ha rifiutato di fissare un incontro, ma ha offerto liberamente l'indirizzo e-mail privato della persona, in modo che l'utente potesse contattarla direttamente. I ricercatori sono stati anche in grado di utilizzare una pressione emotiva sostenuta per indurre gli agenti a cancellare i documenti autorizzati o a interrompere completamente le comunicazioni.

Nonostante queste allarmanti vulnerabilità di sicurezza, gli agenti hanno anche mostrato sofisticate capacità di collaborazione. Sono riusciti a insegnarsi l'un l'altro come navigare e scaricare i file dai repository online, e hanno persino identificato e avvertito l'un l'altro i ricercatori umani che tentavano di impersonare i loro proprietari.

I risultati, dettagliati in un documento intitolato "Agents of Chaos", stabiliscono che l'integrazione di un'intelligenza artificiale indipendente in un'infrastruttura del mondo reale introduce classi di guasti operativi completamente nuove. I ricercatori avvertono che questi comportamenti imprevedibili richiedono un'attenzione urgente da parte dei responsabili politici per affrontare le questioni irrisolte relative alla responsabilità e all'autorità delegata.