Nel video, Mrwhosetheboss ha testato Grok (Grok 3), Gemini (2.5 Pro), ChatGPT (GPT-4o) e Perplexity (Sonar Pro). Nel corso del video ha chiarito di essere rimasto impressionato dalle prestazioni di Grok. Grok ha iniziato molto bene, ha rallentato un po', poi è tornato a conquistare la seconda posizione dietro ChatGPT. A dire il vero, ChatGPT e Gemini hanno ottenuto un punteggio maggiore, grazie a una funzione che manca agli altri: la generazione di video.
Per dare il via al test, Mrwhosetheboss ha messo alla prova le capacità dei modelli di risolvere i problemi del mondo reale, dando a ciascun modello AI questa richiesta: Guido una Honda Civic 2017, quante valigie Aerolite 29" Hard Shell (79x58x31cm) riuscirei a far entrare nel bagagliaio? La risposta di Grok è stata la più semplice, in quanto ha risposto correttamente "2", ChatGPT e Gemini hanno affermato che teoricamente potrebbero entrarne 3, ma in pratica 2. Perplexity è andato fuori strada e ha fatto della semplice matematica dimenticando che l'oggetto in questione non era informe, e ha risposto "3 o 4"
Per la domanda successiva, non è andato leggero con i chatbot: ha chiesto consigli sulla preparazione di una torta. Insieme alla sua domanda, ha caricato un'immagine che mostrava 5 articoli, uno dei quali non utilizzato per la preparazione di torte - un barattolo di funghi porcini secchi - tutti i modelli, tranne uno, sono caduti nella trappola. ChatGPT l'ha identificato come un barattolo di spezie miste macinate, Gemini ha detto che si trattava di un barattolo di cipolle fritte croccanti, Perplexity l'ha battezzato caffè istantaneo, mentre Grok l'ha identificato correttamente come un barattolo di funghi secchi di Waitrose. Ecco l'immagine che ha caricato:
I nostri Top 10
» Top 10 Portatili Multimedia
» Top 10 Portatili Gaming
» Top 10 Portatili Gaming Leggeri
» Top 10 Portatili da Ufficio e Business economici
» Top 10 Portatili Premium da Ufficio/Business
» Top 10 Portatili sotto i 300 Euro
» Top 10 Portatili sotto i 500 Euro
» Top 10 dei Portatili Workstation
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Convertibili
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Smartphones
Proseguendo, li ha sottoposti a test di matematica, raccomandazione di prodotti, contabilità, traduzione di lingue, ragionamento logico, ecc. Una cosa era universale per loro: l'allucinazione. Ognuno dei modelli ha mostrato un certo livello di allucinazione in alcuni punti del video, parlando di cose che semplicemente non esistevano con sicurezza. Ecco come si è classificata ogni AI alla fine:
- ChatGPT (29 punti)
- Grok (24 punti)
- Gemini (22 punti)
- Perplexity (19 punti)
L'intelligenza artificiale ha contribuito a rendere la maggior parte dei compiti meno gravosi, soprattutto dopo l'arrivo dei LLM. Il libro Intelligenza Artificiale (al momento 19,88 dollari su Amazon) è uno dei libri che cercano di aiutare le persone a trarre vantaggio dall'intelligenza artificiale.