OpenAI lancia tre nuovi modelli di API audio in tempo reale, tra cui GPT-Realtime-2

GPT-Realtime-2 di OpenAI porta il ragionamento di classe GPT-5 agli agenti vocali dal vivo, lanciando insieme ad altri due modelli audio in tempo reale attraverso l'API OpenAI.

OpenAI ha lanciato GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper attraverso la sua API Realtime, ora generalmente disponibile per gli agenti vocali di produzione.

Darryl Linington (traduzione a cura di DeepL / Ninh Duy), Pubblicato 05/09/2026 🇺🇸 🇪🇸 ...

AI Business Software Laptop / Notebook Desktop Android Apple

OpenAI ha lanciato tre nuovi modelli audio in tempo reale attraverso la sua API, spingendo l'intelligenza artificiale vocale dalle interazioni di base con domande e risposte verso agenti in grado di ascoltare, ragionare, tradurre e agire all'interno di una singola conversazione dal vivo. Il rilascio segna anche l'uscita dell'API Realtime dalla fase beta, rendendola per la prima volta generalmente disponibile per l'uso in produzione.

Al centro del rilascio c'è GPT-Realtime-2, il primo modello vocale di OpenAI costruito sul ragionamento di classe GPT-5. A differenza dell'architettura a tappe su cui si basa la maggior parte dei sistemi vocali, GPT-Realtime-2 elabora l'audio in un flusso continuo, consentendogli di interpretare il discorso nel momento in cui avviene e di rispondere senza le lacune causate da fasi separate di trascrizione e sintesi. Il modello supporta una finestra di contesto di 128K token, rispetto ai 32K della versione precedente, il che rende pratiche le sessioni vocali più lunghe e i complessi flussi agonici multi-step senza un'impalcatura di memoria esterna.

Cosa può fare GPT-Realtime-2

Il modello è costruito specificamente per quello che OpenAI chiama "comportamento agonico" durante le chiamate vocali. I preamboli gli consentono di dire "Fammi controllare" o "Un momento" mentre esegue le chiamate agli strumenti, in modo che gli utenti non rimangano a bocca asciutta. Le chiamate di strumenti in parallelo gli consentono di eseguire più richieste di back-end simultaneamente e di raccontare quale è in corso. Un comportamento di recupero più forte significa che gestisce i guasti ad alta voce, invece di bloccarsi a metà conversazione. La regolazione del tono le consente di passare da uno stile all'altro in base al contesto: più misurato per le chiamate di assistenza e più ottimista per le conferme.

GPT-Realtime-2 ha ottenuto il 15,2% in più rispetto a GPT-Realtime-1.5 su Big Bench Audio, il benchmark di ragionamento audio di OpenAI, e il 13,8% in più su Audio Multichallenger per seguire le istruzioni. Nei test reali, Zillow ha registrato un aumento di 26 punti del tasso di successo delle chiamate nel benchmark avversario più difficile, passando dal 69% al 95% dopo l'ottimizzazione immediata su GPT-Realtime-2. Il prezzo del modello è di 32 dollari per milione di token di ingresso audio e 64 dollari per milione di token di uscita audio, con 0,40 dollari per milione di token di ingresso nella cache.

GPT-Realtime-Translate e GPT-Realtime-Whisper

Il secondo modello, GPT-Realtime-Translateè un sistema di traduzione vocale dal vivo dedicato. Elabora continuamente l'input parlato e produce traduzioni in tempo reale, senza richiedere agli oratori di fare pause o di terminare frasi complete. Il modello supporta più di 70 lingue di ingresso e 13 lingue di uscita, rivolgendosi all'assistenza clienti, all'istruzione, agli eventi dal vivo e agli ambienti di vendita transfrontalieri. BolnaAI, un'azienda di AI vocale che sta costruendo per i mercati linguistici indiani, riferisce tassi di errore di parola inferiori del 12,5% su Hindi, Tamil e Telugu rispetto all'approccio di traduzione precedente. GPT-Realtime-Translate ha un prezzo di 0,034 dollari al minuto di elaborazione audio.

GPT-Realtime-Whisper è il terzo modello, che estende la tecnologia di riconoscimento vocale Whisper di OpenAI, ampiamente adottata, in un sistema di streaming. Mentre il Whisper originale era stato costruito per la trascrizione successiva alla registrazione, questa versione produce didascalie in diretta, mentre il discorso viene pronunciato. I casi d'uso includono riunioni dal vivo, documentazione in tribunale, trascrizione in sala stampa e strumenti di accessibilità per gli utenti con problemi di udito. È il più conveniente dei tre, con 0,017 dollari al minuto. Tutti e tre i modelli sono disponibili da subito attraverso l'API OpenAI e il parco giochi per sviluppatori.

Il lancio aggiunge anche il supporto del server MCP, le capacità di inserimento di immagini e l'integrazione delle chiamate telefoniche SIP all'API Realtime, ampliando la gamma di telefonia aziendale e di flussi di lavoro agenziali che gli sviluppatori possono creare senza lasciare l'API.

Lo spazio degli strumenti AI ha attirato anche gli aggressori che cercano di sfruttare l'interesse per i nuovi prodotti. Notebookcheck ha riferito ieri di un falso sito web Claude AI che spingeva la backdoor Beagle Windows attraverso i risultati di ricerca sponsorizzati da Google, utilizzando un programma di installazione troianizzato Claude-Pro Relay.