Lo strumento open source misura il livello di stupidità dei modelli di AI

I modelli AI non sono stabili per la codifica delle vibrazioni (Fonte immagine: Generato con OpenAI)

Un nuovo strumento open-source offre il monitoraggio in tempo reale di più modelli di AI, tra cui OpenAI GPT-5, Claude Opus 4 e Gemini 2.5 Pro. Primo nel suo genere, è in grado di rilevare "quando le aziende di AI riducono la capacità del modello per risparmiare sui costi" I benchmark possono essere eseguiti anche rispetto alle chiavi API OpenAI, xAI, Anthropic o Google degli utenti.

Codrut Nistor (traduzione a cura di Ninh Duy), Pubblicato 09/18/2025 🇺🇸 🇪🇸 ...

Chi ha lavorato con modelli di intelligenza artificiale per vari compiti, in particolare per la codifica, ha notato che gli strumenti software si comportano in modo incoerente. In alcuni casi, non riescono a fornire alcuna risposta; a volte forniscono un codice errato e, quando riescono a ottenere ciò che ci si aspettava, lo fanno più lentamente del solito. È qui che interviene l'AI Benchmark Tool, che si trova su AistupidLevel.infofornisce informazioni in tempo reale sulle prestazioni e sull'accuratezza di diversi modelli di AI, compresi i dati sui costi.

Il suddetto strumento open-source esegue oltre 140 attività di codifica, debug e ottimizzazione su tutti i modelli di grandi dimensioni. Per ora, tiene traccia dei seguenti: OpenAI GPT, Claude e Gemini. Presto verrà aggiunto anche Grok. I suoi punti salienti sono i seguenti:

Informazioni sul prezzo in tempo reale, poiché alcuni modelli che sembrano economici hanno bisogno di 10 iterazioni per svolgere un lavoro, mentre altri che sembrano più costosi a prima vista svolgeranno lo stesso compito in 2 iterazioni, quindi con un costo effettivo inferiore.
La possibilità di eseguire gli stessi test con le proprie chiavi API.
Monitoraggio in tempo reale delle prestazioni dell'AI, comprese le classifiche dei modelli in tempo reale in base alla stupidità e all'intelligenza.
Raccomandazioni intelligenti, basate sulle prestazioni combinate.
Notifica delle degradazioni attive: ad esempio, Gemini-2.5-Flash è ora in calo del 44% rispetto al valore di base.

Attualmente, le raccomandazioni intelligenti sono queste: Gemini-2.5-Flash-Lite per il codice, Claude-3.5-Sonnet-20241022 per l'affidabilità e Gemini-2.5-Flash-Lite per la velocità. Tutto è open-sourced su GitHub (Repo API Repo Front End), e chiunque può contribuire. Tutti i dettagli e lo strumento stesso sono disponibili sul sito web ufficiale, citato nel primo paragrafo.