L'acceleratore di inferenza per NVIDIA Vera Rubin.
Panoramica
In passato, le architetture di inferenza IA offrivano interattività e intelligenza a scapito del throughput, oppure throughput e intelligenza a scapito dell'interattività. Non era possibile averli tutte e tre. I sistemi agentici richiedono di più.
NVIDIA Groq 3 LPX è l'acceleratore di inferenza per NVIDIA Vera Rubin, progettato per soddisfare le esigenze di bassa latenza e contesti ampi dei sistemi agentici. Vera Rubin e LPX uniscono le prestazioni estreme delle GPU e delle LPU NVIDIA Rubin attraverso un'architettura co-progettata.
prestazioni di inferenza
Combinando le GPU Rubin per la memoria ad alta larghezza di banda (HBM) e le LPU per la memoria statica ad accesso casuale (SRAM), NVIDIA Vera Rubin con LPX offre una nuova classe di prestazioni di inferenza per modelli da trilioni di parametri e contesto da milioni di token. Distribuite con Vera Rubin NVL72, le GPU e le LPU Rubin potenziano la decodifica calcolando congiuntamente ogni livello del modello IA per ogni token di output.
I sistemi agentici consumano fino a 15 volte più token rispetto alle applicazioni IA tradizionali. Le fabbriche IA devono offrire un volume di token ed enormi finestre contestuali a bassa latenza e un'economia efficiente. In combinazione con LPX, Vera Rubin offre una produttività per megawatt fino a 35 volte superiore per modelli da trilioni di parametri.
Gli agenti sono unità di intelligenza e l'inferenza è il loro carburante. Per offrire un impatto nel mondo reale, i sistemi per agenti hanno bisogno di token veloci e intelligenti. Quando LPX è abbinato a Vera Rubin, il throughput aggiuntivo per watt e le prestazioni dei token aprono un nuovo livello di inferenza ultra-premium, basata su trilioni di parametri e in milioni di contesti, espandendo le opportunità di fatturato per tutti i fornitori di IA.
NVIDIA Groq 3 LPU è la nuova generazione dell'innovativa unità di elaborazione linguistica di Groq. Ogni rack LPX è dotato di 256 acceleratori LPU interconnessi che, insieme alla piattaforma NVIDIA Vera Rubin, potenziano l'inferenza. Ogni acceleratore LPU offre 500 megabyte (MB) di SRAM, 150 terabyte al secondo (TB/s) di larghezza di banda SRAM e una larghezza di banda scalabile di 2,5 TB/s.
Innovazioni tecnologiche
Creato attraverso una co-progettazione estrema, NVIDIA Vera Rubin NVL72 unifica sette chip appositamente progettati in un singolo supercomputer IA.
In un unico rack LPX, 256 chip LPU si riuniscono per offrire prestazioni estreme.
In ogni rack, LPX offre 128 GB di SRAM per l'elaborazione a bassa latenza e 12 TB di memoria DDR5 per modelli e carichi di lavoro di grandi dimensioni.
40 petabyte al secondo (PB/s) di larghezza di banda SRAM per rack offre una bassa latenza.
I collegamenti diretti chip-to-chip offrono 640 TB/s di larghezza di banda scale-up nel rack LPX per la comunicazione tra chip a bassa latenza.
Le connessioni ad alta velocità di LPX a NVL72 riducono la latenza quasi a zero.
LPX sfrutta il rack NVIDIA MGX™ per l'estrazione, la trasformazione e il caricamento (ETL), consentendo alle token factory di pianificare un singolo rack universale nelle distribuzioni della piattaforma NVIDIA Vera Rubin.
Iscriviti per ricevere le ultime notizie, gli aggiornamenti e altro da NVIDIA.