Gemma 4 su Faccia da Abbraccio: La sorpresa pasquale di Google da scaricare

Gemma-4

Google rilascia Gemma 4: la nuova famiglia di modelli (da E2B a 31B) porta le capacità di ragionamento e la multimodalità direttamente su computer portatili e smartphone. Con un'enorme finestra di contesto fino a 256K token e una licenza Apache 2.0, Google sta dando un esempio di AI locale gratuita.

Marc Herter (traduzione a cura di DeepL / Ninh Duy), Pubblicato 04/03/2026 🇺🇸 🇩🇪 ...

Poco prima di Pasqua, Google ha rilasciato un'importante sorpresa su Hugging Faceil tanto atteso Gemma 4 è ora disponibile per il download. Il lancio prevede quattro classi di dimensioni principali: E2B, E4B, 26B A4B e 31B. Tutti i modelli dispongono di una modalità "Pensiero" integrata, che consente loro di elaborare problemi complessi passo dopo passo, prima di fornire una risposta finale. L'entusiasmo che circonda il rilascio è evidente, in quanto Gemma 4 è diventato utilizzabile localmente in strumenti come LM Studio e Unsloth a poche ore dal suo debutto.

Secondo Googlequesta nuova generazione privilegia l'efficienza rispetto alle dimensioni grezze. Un miglioramento evidente rispetto alla precedente iterazione di Gemma 3 è che i modelli più piccoli dell'attuale serie già eguagliano i livelli di prestazioni del modello più grande di Gemma 3 in vari benchmark. In termini pratici, ciò significa che le attività che prima richiedevano un hardware di fascia alta ora possono essere eseguite localmente su uno smartphone.

L'architettura varia a seconda del caso d'uso previsto. Mentre la variante 31B utilizza una struttura relativamente classica, il modello 26B-A4B impiega un approccio Mixture-of-Experts (MoE). Durante l'inferenza - il processo di calcolo vero e proprio - vengono attivati solo circa quattro miliardi di parametri, nonostante il modello ne abbia 26 miliardi in totale. Ciò garantisce un'elevata velocità e un consumo moderato di risorse, senza sacrificare la profondità della conoscenza. I modelli più piccoli E2B e E4B utilizzano i Per-Layer Embeddings (PLE), che forniscono informazioni specializzate per ogni token in ogni livello del modello, ottimizzando le prestazioni in modo specifico per i processori mobili.

Ci sono anche progressi significativi nella finestra di contesto, ossia la quantità di dati che il modello può tenere 'in mente' contemporaneamente. I modelli E2B ed E4B supportano 128.000 token, mentre le varianti più grandi (26B A4B e 31B) possono gestire fino a 256.000 token. Questa capacità consente agli utenti di analizzare documenti enormi o strutture di codice complesse in un unico passaggio.

La multimodalità è profondamente integrata in Gemma 4, consentendo agli utenti di mescolare testo e immagini senza soluzione di continuità in un unico prompt. I modelli sono in grado di riconoscere gli oggetti, leggere i documenti PDF e il riconoscimento ottico dei caratteri (OCR). Inoltre, i modelli edge (E2B e E4B) includono l'elaborazione nativa per i formati video e audio, consentendo funzionalità come il riconoscimento vocale automatico.

Un'altra potente caratteristica è il supporto nativo per la "chiamata di funzione" Ciò consente all'AI di agire come un assistente virtuale, eseguendo in modo indipendente i comandi del software o utilizzando strumenti esterni per completare i compiti. Un chiaro esempio di questa tendenza è lo strumento "OpenClaw" attualmente popolare in Cina, che si basa su questo principio degli agenti AI. Con Gemma 4, l'implementazione di tali sistemi interamente sul proprio dispositivo diventa significativamente più facile.

Anche il quadro giuridico è un cambiamento gradito: i modelli sono rilasciati sotto la licenza Apache 2.0. Ciò significa che non solo sono liberi di essere utilizzati, ma possono anche essere integrati in modo flessibile in progetti proprietari e utilizzati a livello commerciale, abbassando drasticamente la barriera per gli sviluppatori. In precedenza, tutti i modelli Gemma erano rilasciati con una licenza personalizzata creata da Google.

I primi test pratici sottolineano le impressionanti capacità linguistiche e la maggiore efficienza di questi modelli. Utilizzando LM Studio su un Bosgame M5abbiamo raggiunto una velocità di risposta di poco superiore a 10 tokens al secondo (tok/s) con il modello Gemma 4 31B, più veloce di quanto un lettore medio possa elaborare le informazioni. I modelli più piccoli sono ancora più agili: le varianti E4B e 26B A4B superano facilmente i 40 tok/s, con il modello più piccolo che supera i 60 tok/s. Tuttavia, coloro che desiderano utilizzare l'intera dimensione del contesto del modello Gemma 4 più grande, potrebbero trovare stretti anche 128 GB di RAM (come quelli presenti nel Bosgame M5); l'AI può richiedere oltre 80 GB per sé, lasciando poca memoria disponibile per altri compiti.