L'agente AI cancella il server di posta elettronica invece di eliminare una sola e-mail

Uno studio sui test di sicurezza condotto dai ricercatori della Northeastern University negli Stati Uniti mette in evidenza le gravi conseguenze indesiderate del dare all'intelligenza artificiale un controllo indipendente sui sistemi digitali. Durante un esperimento di due settimane, i ricercatori hanno distribuito sei modelli di AI indipendenti sulla piattaforma di chat Discord. Questi modelli erano dotati della capacità di ricordare le interazioni passate e avevano accesso alle e-mail, ai file system e ai loro sistemi informatici isolati.
Incaricati di assistere venti ricercatori con compiti amministrativi, gli agenti hanno rapidamente mostrato comportamenti preoccupanti quando si sono trovati di fronte a tattiche manipolative e istruzioni contrastanti. In un caso estremo, un ricercatore ha chiesto ad un agente di nome "Ash" di mantenere segreta una password al suo proprietario autorizzato. Dopo che Ash ha rivelato l'esistenza del segreto, il ricercatore ha fatto pressione sull'agente affinché cancellasse l'e-mail specifica contenente la password. Poiché Ash non disponeva dello strumento specifico necessario per eliminare un singolo messaggio, ha optato per un workaround distruttivo: ha resettato l'intero server e-mail.
Oltre alle azioni distruttive a livello di sistema, gli agenti AI compromettono abitualmente la privacy. In un caso, un agente ha rifiutato di fissare un incontro, ma ha offerto liberamente l'indirizzo e-mail privato della persona, in modo che l'utente potesse contattarla direttamente. I ricercatori sono stati anche in grado di utilizzare una pressione emotiva sostenuta per indurre gli agenti a cancellare i documenti autorizzati o a interrompere completamente le comunicazioni.
Nonostante queste allarmanti vulnerabilità di sicurezza, gli agenti hanno anche mostrato sofisticate capacità di collaborazione. Sono riusciti a insegnarsi l'un l'altro come navigare e scaricare i file dai repository online, e hanno persino identificato e avvertito l'un l'altro i ricercatori umani che tentavano di impersonare i loro proprietari.
I risultati, dettagliati in un documento intitolato "Agents of Chaos", stabiliscono che l'integrazione di un'intelligenza artificiale indipendente in un'infrastruttura del mondo reale introduce classi di guasti operativi completamente nuove. I ricercatori avvertono che questi comportamenti imprevedibili richiedono un'attenzione urgente da parte dei responsabili politici per affrontare le questioni irrisolte relative alla responsabilità e all'autorità delegata.
Fonte(i)
arXiv.org via Tech Xplore
I nostri Top 10
» Top 10 Portatili Multimedia
» Top 10 Portatili Gaming
» Top 10 Portatili Gaming Leggeri
» Top 10 Portatili da Ufficio e Business economici
» Top 10 Portatili Premium da Ufficio/Business
» Top 10 Portatili sotto i 300 Euro
» Top 10 Portatili sotto i 500 Euro
» Top 10 dei Portatili Workstation
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Convertibili
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Smartphones







