Gli assistenti AI sono sorprendentemente abili nell'inventare informazioni e presentarle come fatti. Affermazioni false, fonti fittizie e citazioni inventate fanno parte del mix. Questi errori sono comunemente chiamati allucinazioni. Molti utenti si sono probabilmente abituati al problema, spesso dipendendo dal proprio fact-checking per separare la verità dalla finzione. Ma secondo OpenAIpotrebbe esserci un'alternativa. Il 5 settembre, l'azienda che sta dietro a ChatGPT ha pubblicato un documento dettagliato che offre una nuova spiegazione del perché si verificano le allucinazioni - e una potenziale soluzione.
L'indovinare viene premiato, l'incertezza viene punita
Il documento di 36 pagine https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdfscritto da Adam Kalai, Santosh Vempala della Georgia Tech e altri ricercatori di OpenAI, chiarisce una cosa: le allucinazioni non sono causate da una scrittura approssimativa, ma dal modo in cui sono impostate le attuali metriche di valutazione. Queste metriche tendono a premiare le ipotesi sicure e a penalizzare le espressioni di incertezza. I ricercatori fanno un paragone con i test a scelta multipla: chi indovina può guadagnare punti, mentre chi lascia le domande in bianco non ottiene nulla. Statisticamente, il modello di indovinare è in vantaggio, anche se spesso fornisce informazioni errate.
Di conseguenza, le classifiche odierne - che classificano le prestazioni dell'AI - si concentrano quasi esclusivamente sulla precisione, trascurando i tassi di errore e l'incertezza. OpenAI chiede ora un cambiamento. Invece di limitarsi a contare le risposte corrette, le classifiche dovrebbero penalizzare maggiormente gli errori sicuri, assegnando al contempo un certo credito per le astensioni prudenti. L'obiettivo è incoraggiare i modelli a riconoscere l'incertezza, anziché presentare con sicurezza informazioni false come fatti.
Meno ipotesi, più onestà
Un esempio tratto dal documento mostra la differenza che questo approccio può fare. Nel benchmark SimpleQA, un modello ha scelto di non rispondere a più della metà delle domande, ma ha sbagliato solo il 26% delle risposte fornite. Un altro modello ha risposto a quasi tutte le domande, ma ha avuto un'allucinazione in circa il 75% dei casi. La conclusione è chiara: dimostrare l'incertezza è più affidabile di un'ipotesi sicura che crea solo l'illusione della precisione.
Fonte(i)
I nostri Top 10
» Top 10 Portatili Multimedia
» Top 10 Portatili Gaming
» Top 10 Portatili Gaming Leggeri
» Top 10 Portatili da Ufficio e Business economici
» Top 10 Portatili Premium da Ufficio/Business
» Top 10 Portatili sotto i 300 Euro
» Top 10 Portatili sotto i 500 Euro
» Top 10 dei Portatili Workstation
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Convertibili
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Smartphones