Battaglia AI: Grok sorprende Mrwhosetheboss con le sue prestazioni e ChatGPT vince

Gemini, ChatGPT, Grok e Perplexity (Fonte: Gemini)

In un video pubblicato da Mrwhosetheboss su YouTube, ha testato quattro modelli di AI di diversi marchi e li ha valutati in base alle prestazioni in ogni compito. Mrwhosetheboss è passato da semplici domande a domande complicate e ricerche, spingendo ogni modello al suo limite.

Chibuike Okpara (traduzione a cura di Ninh Duy), Pubblicato 07/04/2025 🇺🇸 🇩🇪 ...

Nel video, Mrwhosetheboss ha testato Grok (Grok 3), Gemini (2.5 Pro), ChatGPT (GPT-4o) e Perplexity (Sonar Pro). Nel corso del video ha chiarito di essere rimasto impressionato dalle prestazioni di Grok. Grok ha iniziato molto bene, ha rallentato un po', poi è tornato a conquistare la seconda posizione dietro ChatGPT. A dire il vero, ChatGPT e Gemini hanno ottenuto un punteggio maggiore, grazie a una funzione che manca agli altri: la generazione di video.

Per dare il via al test, Mrwhosetheboss ha messo alla prova le capacità dei modelli di risolvere i problemi del mondo reale, dando a ciascun modello AI questa richiesta: Guido una Honda Civic 2017, quante valigie Aerolite 29" Hard Shell (79x58x31cm) riuscirei a far entrare nel bagagliaio? La risposta di Grok è stata la più semplice, in quanto ha risposto correttamente "2", ChatGPT e Gemini hanno affermato che teoricamente potrebbero entrarne 3, ma in pratica 2. Perplexity è andato fuori strada e ha fatto della semplice matematica dimenticando che l'oggetto in questione non era informe, e ha risposto "3 o 4"

Per la domanda successiva, non è andato leggero con i chatbot: ha chiesto consigli sulla preparazione di una torta. Insieme alla sua domanda, ha caricato un'immagine che mostrava 5 articoli, uno dei quali non utilizzato per la preparazione di torte - un barattolo di funghi porcini secchi - tutti i modelli, tranne uno, sono caduti nella trappola. ChatGPT l'ha identificato come un barattolo di spezie miste macinate, Gemini ha detto che si trattava di un barattolo di cipolle fritte croccanti, Perplexity l'ha battezzato caffè istantaneo, mentre Grok l'ha identificato correttamente come un barattolo di funghi secchi di Waitrose. Ecco l'immagine che ha caricato:

Un'immagine alterata dei 5 ingredienti che Mrwhosetheboss ha caricato sui chatbot AI, evidenziando il vasetto di funghi (Fonte: Mrwhosetheboss; ritagliato)

Proseguendo, li ha sottoposti a test di matematica, raccomandazione di prodotti, contabilità, traduzione di lingue, ragionamento logico, ecc. Una cosa era universale per loro: l'allucinazione. Ognuno dei modelli ha mostrato un certo livello di allucinazione in alcuni punti del video, parlando di cose che semplicemente non esistevano con sicurezza. Ecco come si è classificata ogni AI alla fine:

ChatGPT (29 punti)
Grok (24 punti)
Gemini (22 punti)
Perplexity (19 punti)

L'intelligenza artificiale ha contribuito a rendere la maggior parte dei compiti meno gravosi, soprattutto dopo l'arrivo dei LLM. Il libro Intelligenza Artificiale (al momento 19,88 dollari su Amazon) è uno dei libri che cercano di aiutare le persone a trarre vantaggio dall'intelligenza artificiale.