L'acceleratore di inferenza per NVIDIA Vera Rubin.
Panoramica
In passato, le architetture di inferenza IA offrivano interattività e intelligenza a scapito della produttività oppure produttività e intelligenza a scapito dell'interattività. Non era possibile averli tutte e tre. I sistemi agentici richiedono di più.
NVIDIA Groq 3 LPX è l'acceleratore di inferenza per NVIDIA Vera Rubin, progettato per soddisfare le esigenze di bassa latenza e contesti ampi dei sistemi agentici. Vera Rubin e LPX uniscono le prestazioni estreme delle GPU e delle LPU NVIDIA Rubin attraverso un'architettura co-progettata.
Prestazioni di inferenza
Combinando le GPU Rubin per la memoria ad alta larghezza di banda (HBM) e le LPU per la memoria statica ad accesso casuale (SRAM), NVIDIA Vera Rubin con LPX offre una nuova classe di prestazioni di inferenza per modelli da trilioni di parametri e contesto da milioni di token. Distribuite con Vera Rubin NVL72, le GPU e le LPU Rubin potenziano la decodifica calcolando congiuntamente ogni livello del modello IA per ogni token di output.
I sistemi agentici consumano fino a 15 volte più token rispetto alle applicazioni IA tradizionali. Le fabbriche IA devono offrire un volume di token ed enormi finestre contestuali con bassa latenza ed efficienza economica. In combinazione con LPX, Vera Rubin NVL72 offre un throughput per megawatt (MW) fino a 35 volte superiore per i modelli da mille miliardi di parametri.
TPS: token al secondo. Prestazioni previste soggette a modifica. Piano gratuito ($0): modello Qwen-3 da 235 miliardi di parametri con 32.000 token memorizzati nella cache chiave-valore (KV). Livello medio ($3): modello Kimi K2.5 da 1 trilione di parametri con 128K token in cache KV. Livello alto ($6): modello GPT-MoE da 2 trilioni di parametri con 128.000 token memorizzati in cache KV. Livelli Premium ($45) e Ultra ($150): modello GPT-MoE da 2 bilioni di parametri con 400.000 token memorizzati in cache KV.
Gli agenti sono unità di intelligenza e l'inferenza è il loro carburante. Per offrire valore nel mondo reale, i sistemi per agenti hanno bisogno di token di alto valore che siano più veloci e contengano più contesto. Quando LPX è abbinata a Vera Rubin, le fabbriche IA possono produrre token premium su larga scala, ottenendo un fatturato per watt 10 volte superiore.
Ricavi proiettati basati sul throughput delle fabbriche IA per gigawatt e sul modello di prezzi a scaglioni basato sul costo stimato per milione di token.
NVIDIA Groq 3 LPU è la nuova generazione dell'innovativa unità di elaborazione linguistica di Groq. Ogni rack LPX è dotato di 256 acceleratori LPU interconnessi che, insieme alla piattaforma NVIDIA Vera Rubin, potenziano l'inferenza. Ogni acceleratore LPU offre 500 megabyte (MB) di SRAM, 150 terabyte al secondo (TB/s) di larghezza di banda SRAM e una larghezza di banda scalabile di 2,5 TB/s.
Innovazioni tecnologiche
Creato attraverso una co-progettazione estrema, NVIDIA Vera Rubin NVL72 unifica sette chip appositamente progettati in un singolo supercomputer IA.
In un unico rack LPX, 256 chip LPU si riuniscono per offrire prestazioni estreme.
In ogni rack, LPX offre 128 GB di SRAM per l'elaborazione a bassa latenza e 12 TB di memoria DDR5 per modelli e carichi di lavoro di grandi dimensioni.
40 petabyte al secondo (PB/s) di larghezza di banda SRAM per rack offre una bassa latenza.
I collegamenti diretti chip-to-chip offrono 640 TB/s di larghezza di banda scale-up nel rack LPX per la comunicazione tra chip a bassa latenza.
Le connessioni ad alta velocità di LPX a NVL72 riducono la latenza quasi a zero.
LPX sfrutta il rack NVIDIA MGX™ per l'estrazione, la trasformazione e il caricamento (ETL), consentendo alle token factory di pianificare un singolo rack universale nelle distribuzioni della piattaforma NVIDIA Vera Rubin.
Iscriviti per ricevere le ultime notizie, gli aggiornamenti e altro da NVIDIA.