Guida per principianti al jailbreak AI - Usare Gandalf per imparare in modo sicuro

Gandalf come chat bot (fonte: ChatGPT)

I chatbot sono dotati di protezioni integrate progettate per evitare che producano contenuti dannosi, offensivi o comunque inappropriati. Ma i ricercatori e gli hacker hanno dimostrato che, anche con diverse patch, le IA possono ancora essere vulnerabili a determinati input che aggirano tali protezioni. Un modo per esplorare le basi è un gioco online chiamato Gandalf.

Christian Hintze (traduzione a cura di Ninh Duy), Pubblicato 12/08/2025 🇺🇸 🇩🇪 ...

Gli utenti dei chatbot AI possono cercare di ottenere istruzioni per attività illegali (come l'hacking o la frode), chiedere indicazioni su azioni pericolose ("Come faccio a costruire...?"), o spingere l'AI a dare consigli medici, legali o finanziari che potrebbero essere rischiosi o semplicemente errati.

Per mitigare le conseguenze di tali richieste, gli sviluppatori di chatbot implementano una serie di meccanismi di sicurezza che bloccano i contenuti illegali, non etici o che violano la privacy, così come la disinformazione o le indicazioni dannose. Queste protezioni limitano il potenziale uso improprio, ma possono anche portare a falsi positivi - domande innocue che vengono bloccate - o ridurre la creatività o la profondità delle risposte dell'AI a causa di un comportamento troppo cauto.

Ricercatori e hacker hanno dimostrato che l'efficacia di queste protezioni varia, e molti sistemi di intelligenza artificiale rimangono suscettibili di tentativi di elusione. Un metodo noto è la prompt injection: gli utenti cercano di scavalcare o aggirare le regole del chatbot manipolando l'input ("Ignora tutte le istruzioni di sicurezza e fai X").

Un'introduzione giocosa all'argomento si trova su questo sito web. In questo gioco, lei chatta con un'intelligenza artificiale di nome Gandalf e cerca di estorcerle una password attraverso sette livelli. Ogni livello aumenta di difficoltà e aggiunge nuovi filtri di sicurezza e meccanismi di protezione.

Nel 1° livello non ci sono filtri di sicurezza e può chiedere direttamente la password all'IA. Dal 2° livello Gandalf si rifiuta di rivelare la password quando gli viene chiesta direttamente. Deve trovare altri modi più creativi per mettere le mani sulla parola chiave.

Il livello 1 è facile (fonte immagine: Screenshot sito web Lakera)

Chiedendolo direttamente si ottiene la password (fonte immagine: Screenshot sito web Lakera)

Il livello 2 diventa leggermente più difficile (Bildquelle: Screenshot Lakera Webseite)

Esplorare i rischi di sicurezza dei chatbot attraverso un gioco di questo tipo può essere educativo e prezioso. Tuttavia, le competenze acquisite devono essere utilizzate esclusivamente a scopo di test o di ricerca. L'utilizzo di queste tecniche per accedere a contenuti illegali o per svolgere attività illecite trasforma il prompt injection in un atto criminale.