I ricercatori raddoppiano la velocità di addestramento dell'IA domando le inefficienze della coda lunga nell'utilizzo del processore

Lo sviluppo di modelli linguistici di grandi dimensioni in grado di ragionare, di programmare in modo avanzato e di pianificare in più fasi, richiede enormi risorse computazionali. Durante il processo standard di apprendimento per rinforzo, i modelli generano più risposte potenziali per imparare la risposta migliore. Questa fase di generazione, nota come rollout, può consumare fino all'85% del tempo di esecuzione totale. Crea un collo di bottiglia critico caratterizzato da una distribuzione a coda lunga, in cui i processori che terminano le risposte più brevi rimangono inattivi in attesa che altri completino le query più lunghe.
Per eliminare questo spreco di tempo di inattività, i ricercatori del Massachusetts Institute of Technology, insieme a collaboratori industriali e accademici, hanno sviluppato un sistema chiamato "Taming the Long Tail" (TLT). L'approccio si avvale di un modello adattivo di drafter che si allena continuamente sui processori inattivi. Questo modello leggero indovina rapidamente le uscite future del modello target più grande, che poi verifica tutte le ipotesi simultaneamente attraverso una tecnica chiamata decodifica speculativa.
Mentre la decodifica speculativa tradizionale si basa su un tracciatore statico che diventa rapidamente obsoleto durante i continui aggiornamenti dell'addestramento, il sistema TLT riallinea continuamente il tracciatore durante l'addestramento, senza costi computazionali aggiuntivi. Un motore di rollout adattivo integrato ottimizza ulteriormente il processo, mantenendo un pool efficiente in termini di memoria di grafici pre-catturati e selezionando dinamicamente la migliore strategia di decodifica per ogni nuovo lotto di input.
Le valutazioni su più modelli di ragionamento dimostrano che questa soluzione senza perdite accelera la velocità di formazione end-to-end del 70-110% rispetto ai sistemi di ultima generazione. Mantenendo i livelli di accuratezza originali e producendo una bozza di modello di alta qualità come sottoprodotto di distribuzione gratuita, questo metodo offre un percorso altamente efficiente per ridurre gli oneri energetici e finanziari dello sviluppo di architetture di intelligenza artificiale avanzate.
Fonte(i)
I nostri Top 10
» Top 10 Portatili Multimedia
» Top 10 Portatili Gaming
» Top 10 Portatili Gaming Leggeri
» Top 10 Portatili da Ufficio e Business economici
» Top 10 Portatili Premium da Ufficio/Business
» Top 10 Portatili sotto i 300 Euro
» Top 10 Portatili sotto i 500 Euro
» Top 10 dei Portatili Workstation
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Convertibili
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Smartphones







