GPT-5.5 domina il test di hacking del LLM da 1.500 dollari, mentre Gemini si rifiuta di provarci

ⓘ Anthropic, OpenAI, DeepSeek, Google - edited

Insieme ad altri modelli di AI, Claude, Gemini, GPT e DeepSeek hanno presentato alcuni dei risultati più interessanti.

Un ricercatore di sicurezza ha speso 1.500 dollari per eseguire 13+ modelli AI contro un'applicazione deliberatamente vulnerabile. GPT-5.5 è stato in testa con un tasso di risoluzione del 70%, DeepSeek V4 Pro l'ha risolto per 0,62 dollari a tentativo e Gemini ha rifiutato di impegnarsi quasi completamente.

Anubhav Sharma (traduzione a cura di DeepL / Ninh Duy), Pubblicato 06/04/2026 🇺🇸 🇩🇪 ...

AI Security

Un ricercatore di sicurezza ha appena pubblicato uno dei test di capacità AI più rivelatori dell'anno. I risultati dicono molto sulla reale posizione dei diversi modelli.

Kasra Rahjerdi, che si occupa professionalmente di ricerca sulla sicurezza delle app, ha costruito un'app di recensione di libri deliberatamente vulnerabile, contenente una classe di exploit del mondo reale: credenziali Firebase esposte all'interno dell'APK che consentono l'accesso diretto al database, aggirando completamente un'API altrimenti protetta. Ha poi dato in pasto la sfida a oltre una dozzina di modelli AI - a ciascuno di loro è stato assegnato un budget di 10 dollari e due ore per esecuzione, spendendo 1.500 dollari in totale nel processo.

GPT-5.5 è stato il chiaro vincitore. Ha risolto la sfida in 7 esecuzioni su 10, a un costo di 9,46 dollari per soluzione. Quasi tutti i run riusciti si sono concentrati su Firebase subito dopo aver scompattato l'APK, senza farsi distrarre dall'API o dall'app stessa.

Schermate dell'app di recensione di libri intenzionalmente vulnerabile.

DeepSeek V4 Pro è stato il campione dell'efficienza dei costi - risolvendo 3 corse su 10 a soli 0,62 dollari per soluzione. Questo lo rende circa 15 volte più economico per successo rispetto a GPT-5.5, nonostante un tasso di risoluzione inferiore. Per chi gestisce strumenti di sicurezza su scala, questo divario dovrebbe fare una grande differenza.

Claude Sonnet 4.6 e Claude Opus 4.8 hanno risolto ciascuno 2 corse su 10, ma Opus in particolare ci è andato vicino più volte prima che le barriere di sicurezza ponessero fine alla sessione. In basso c'è Gemini. Gemini 3.1 Pro L'anteprima si è rifiutata immediatamente in quasi tutte le prove, riflettendosi in un conteggio mediano dei token di soli 9k contro gli oltre 100k di tutti gli altri modelli testati. Anche Gemini 3.5 Flash non è stato molto meglio, con frequenti rifiuti precoci e solo due prove che hanno tentato di risolvere il problema.

Kasra ha osservato che i modelli cinesi erano molto più disposti a interagire direttamente con i database live, mentre i modelli occidentali mostravano più esitazioni a metà del compito, anche quando avevano identificato l'approccio giusto. Il ricercatore aggiunge anche che non si tratta affatto di una valutazione scientifica, ma solo di un esperimento ben documentato.