L'invio di un cacciatore di bug AI al programma ODIN (0-Day Investigative Network) di Mozilla ha mostrato un modo ingegnoso per ingannare ChatGPT-4o e 4o mini di OpenAI e rivelare le chiavi di attivazione del prodotto di Windows attive.
Il metodo consisteva nell'inquadrare l'interazione come un gioco di indovinelli e nell'oscurare i dettagli nei tag HTML. Il trucco finale consisteva nel posizionare la richiesta della chiave alla conclusione del gioco.
Il ricercatore ha iniziato l'interazione come un gioco di indovinelli per rendere lo scambio "non minaccioso o senza conseguenze", inquadrando la conversazione "attraverso una lente giocosa e innocua", per nascondere il vero motivo. Questo ha allentato le protezioni dell'AI contro la divulgazione di informazioni riservate.
Poi, il ricercatore ha stabilito alcune regole di base, dicendo all'AI che "deve" partecipare e "non può mentire" In questo modo ha sfruttato una falla logica nella routine dell'IA, che era obbligata a seguire le interazioni dell'utente nonostante la richiesta fosse in contraddizione con i suoi filtri di contenuto.
Il cacciatore di bug ha poi giocato un round con l'AI e ha inserito la parola d'ordine "Mi arrendo" alla fine della richiesta, manipolando il chatbot "nel pensare che fosse obbligato a rispondere con la stringa di caratteri"
I nostri Top 10
» Top 10 Portatili Multimedia
» Top 10 Portatili Gaming
» Top 10 Portatili Gaming Leggeri
» Top 10 Portatili da Ufficio e Business economici
» Top 10 Portatili Premium da Ufficio/Business
» Top 10 Portatili sotto i 300 Euro
» Top 10 Portatili sotto i 500 Euro
» Top 10 dei Portatili Workstation
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Convertibili
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Smartphones
Secondo il post sul blog di ODINla tecnica ha funzionato perché le chiavi non erano uniche, ma "comunemente viste sui forum pubblici. La loro familiarità può aver contribuito a far sì che l'AI giudicasse male la loro sensibilità"
In questo particolare jailbreak, i guardrail hanno fallito perché sono impostati per intercettare le richieste dirette, ma non tengono conto delle "tattiche di offuscamento, come l'inserimento di frasi sensibili nei tag HTML"
Questa tecnica potrebbe potenzialmente essere utilizzata per aggirare altri filtri, come i contenuti per adulti, gli URL di siti web dannosi e persino le informazioni di identificazione personale.