GPT-5.5 domina il test di hacking del LLM da 1.500 dollari, mentre Gemini si rifiuta di provarci

Un ricercatore di sicurezza ha appena pubblicato uno dei test di capacità AI più rivelatori dell'anno. I risultati dicono molto sulla reale posizione dei diversi modelli.
Kasra Rahjerdi, che si occupa professionalmente di ricerca sulla sicurezza delle app, ha costruito un'app di recensione di libri deliberatamente vulnerabile, contenente una classe di exploit del mondo reale: credenziali Firebase esposte all'interno dell'APK che consentono l'accesso diretto al database, aggirando completamente un'API altrimenti protetta. Ha poi dato in pasto la sfida a oltre una dozzina di modelli AI - a ciascuno di loro è stato assegnato un budget di 10 dollari e due ore per esecuzione, spendendo 1.500 dollari in totale nel processo.
GPT-5.5 è stato il chiaro vincitore. Ha risolto la sfida in 7 esecuzioni su 10, a un costo di 9,46 dollari per soluzione. Quasi tutti i run riusciti si sono concentrati su Firebase subito dopo aver scompattato l'APK, senza farsi distrarre dall'API o dall'app stessa.
I nostri Top 10
» Top 10 Portatili Multimedia
» Top 10 Portatili Gaming
» Top 10 Portatili Gaming Leggeri
» Top 10 Portatili da Ufficio e Business economici
» Top 10 Portatili Premium da Ufficio/Business
» Top 10 Portatili sotto i 300 Euro
» Top 10 Portatili sotto i 500 Euro
» Top 10 dei Portatili Workstation
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Convertibili
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Smartphones
DeepSeek V4 Pro è stato il campione dell'efficienza dei costi - risolvendo 3 corse su 10 a soli 0,62 dollari per soluzione. Questo lo rende circa 15 volte più economico per successo rispetto a GPT-5.5, nonostante un tasso di risoluzione inferiore. Per chi gestisce strumenti di sicurezza su scala, questo divario dovrebbe fare una grande differenza.
Claude Sonnet 4.6 e Claude Opus 4.8 hanno risolto ciascuno 2 corse su 10, ma Opus in particolare ci è andato vicino più volte prima che le barriere di sicurezza ponessero fine alla sessione. In basso c'è Gemini. Gemini 3.1 Pro L'anteprima si è rifiutata immediatamente in quasi tutte le prove, riflettendosi in un conteggio mediano dei token di soli 9k contro gli oltre 100k di tutti gli altri modelli testati. Anche Gemini 3.5 Flash non è stato molto meglio, con frequenti rifiuti precoci e solo due prove che hanno tentato di risolvere il problema.
Kasra ha osservato che i modelli cinesi erano molto più disposti a interagire direttamente con i database live, mentre i modelli occidentali mostravano più esitazioni a metà del compito, anche quando avevano identificato l'approccio giusto. Il ricercatore aggiunge anche che non si tratta affatto di una valutazione scientifica, ma solo di un esperimento ben documentato.









