Allucinazioni da AI: I ricercatori hanno trovato la causa - e una soluzione

Secondo i ricercatori di OpenAI, le allucinazioni dei modelli linguistici si verificano perché le valutazioni attuali premiano le risposte errate e penalizzano le espressioni oneste di incertezza. (Fonte: OpenAI)

Chiunque utilizzi l'intelligenza artificiale per cercare informazioni deve essere consapevole che queste potrebbero essere falsificate. I ricercatori di OpenAI affermano ora di aver identificato la causa di questo problema e un modo per risolverlo.

Marius Müller (traduzione a cura di Ninh Duy), Pubblicato 09/08/2025 🇺🇸 🇩🇪 ...

AI Science Business

Gli assistenti AI sono sorprendentemente abili nell'inventare informazioni e presentarle come fatti. Affermazioni false, fonti fittizie e citazioni inventate fanno parte del mix. Questi errori sono comunemente chiamati allucinazioni. Molti utenti si sono probabilmente abituati al problema, spesso dipendendo dal proprio fact-checking per separare la verità dalla finzione. Ma secondo OpenAIpotrebbe esserci un'alternativa. Il 5 settembre, l'azienda che sta dietro a ChatGPT ha pubblicato un documento dettagliato che offre una nuova spiegazione del perché si verificano le allucinazioni - e una potenziale soluzione.

L'indovinare viene premiato, l'incertezza viene punita

Il documento di 36 pagine https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdfscritto da Adam Kalai, Santosh Vempala della Georgia Tech e altri ricercatori di OpenAI, chiarisce una cosa: le allucinazioni non sono causate da una scrittura approssimativa, ma dal modo in cui sono impostate le attuali metriche di valutazione. Queste metriche tendono a premiare le ipotesi sicure e a penalizzare le espressioni di incertezza. I ricercatori fanno un paragone con i test a scelta multipla: chi indovina può guadagnare punti, mentre chi lascia le domande in bianco non ottiene nulla. Statisticamente, il modello di indovinare è in vantaggio, anche se spesso fornisce informazioni errate.

Di conseguenza, le classifiche odierne - che classificano le prestazioni dell'AI - si concentrano quasi esclusivamente sulla precisione, trascurando i tassi di errore e l'incertezza. OpenAI chiede ora un cambiamento. Invece di limitarsi a contare le risposte corrette, le classifiche dovrebbero penalizzare maggiormente gli errori sicuri, assegnando al contempo un certo credito per le astensioni prudenti. L'obiettivo è incoraggiare i modelli a riconoscere l'incertezza, anziché presentare con sicurezza informazioni false come fatti.

Meno ipotesi, più onestà

Un esempio tratto dal documento mostra la differenza che questo approccio può fare. Nel benchmark SimpleQA, un modello ha scelto di non rispondere a più della metà delle domande, ma ha sbagliato solo il 26% delle risposte fornite. Un altro modello ha risposto a quasi tutte le domande, ma ha avuto un'allucinazione in circa il 75% dei casi. La conclusione è chiara: dimostrare l'incertezza è più affidabile di un'ipotesi sicura che crea solo l'illusione della precisione.