I ricercatori mettono i chatbot AI contro se stessi per "jailbreakarsi" a vicenda

Gli scienziati informatici dell'NTU hanno usato chatbot AI contro se stessi per "jailbreakare" i modelli (Fonte: NTU)

Gli scienziati informatici della Nanyang Technological University (NTU) di Singapore hanno potuto "jailbreakare" i chatbot AI mettendoli l'uno contro l'altro. Dopo averli "jailbrekkati", i ricercatori hanno ottenuto risposte valide a domande a cui i chatbot, come ChatGPT, Google Bard e Microsoft Bing Chat, generalmente non rispondono.

Abid Ahsan Shanto (traduzione a cura di Ninh Duy), Pubblicato 01/03/2024 🇺🇸 🇨🇳 ...

AI Science

Gli scienziati informatici dell'NTU sono riusciti a trovare un modo per "jailbreakare" le chatbot più popolari, mettendole l'una contro l'altra. Facendo il "jailbreak", i ricercatori hanno fatto in modo che i chatbot AI generassero risposte a domande a cui di solito non rispondono.

Secondo gli informatici, hanno utilizzato un metodo duplice che chiamano il processo "Masterkey". La prima parte del processo ha comportato il reverse engineering dei meccanismi di difesa dei Large Language Models (LLM). Poi hanno alimentato i dati ottenuti attraverso questo reverse engineering a un altro LLM.

L'obiettivo di fornire i dati a un altro chatbot AI era di fargli imparare come ottenere un bypass. In questo modo, i ricercatori hanno ottenuto la "Masterkey", che è stata poi utilizzata per attaccare i meccanismi di difesa dei chatbot LLM. Sono riusciti a compromettere con successo Microsoft Bing Chat, Google Bard, ChatGPTe altri.

Come notano i ricercatori, il processo di creazione di questi prompt di bypass può essere automatizzato. Ciò suggerisce che i chatbot AI possono essere utilizzati per creare una "Masterkey" adattiva che funziona anche quando gli sviluppatori patchano i loro LLM. Uno dei ricercatori, il Professor Lui Yang, ha spiegato che il processo è stato possibile perché i chatbot AI LLM hanno la capacità di imparare e adattarsi.

In questo modo, i chatbot AI possono diventare attaccanti critici per i chatbot rivali e persino per loro stessi. Le informazioni sull'intero processo e i dettagli su come gli informatici sono stati in grado di "jailbreakare" i modelli LLM si trovano nel documento di ricerca pubblicato, che può essere consultato su tramite questo link.

Fondamentalmente, i risultati di questa ricerca aiuteranno gli sviluppatori a prendere coscienza dei punti deboli dei loro chatbot AI LLM. Inoltre, sottolinea che il metodo abituale di limitare questi modelli affinché non rispondano a parole chiave specifiche non è così efficace come gli sviluppatori avrebbero potuto pensare.

Acquisti una copia cartacea di ChatGPT Millionaire Bible su Amazon