NVIDIA Groq 3 LPX

L'acceleratore di inferenza per NVIDIA Vera Rubin.

Panoramica

La velocità incontra la scala

In passato, le architetture di inferenza IA offrivano interattività e intelligenza a scapito della produttività oppure produttività e intelligenza a scapito dell'interattività. Non era possibile averli tutte e tre. I sistemi agentici richiedono di più.

NVIDIA Groq 3 LPX è l'acceleratore di inferenza per NVIDIA Vera Rubin, progettato per soddisfare le esigenze di bassa latenza e contesti ampi dei sistemi agentici. Vera Rubin e LPX uniscono le prestazioni estreme delle GPU e delle LPU NVIDIA Rubin attraverso un'architettura co-progettata.

NVIDIA Vera Rubin apre la frontiera dell'IA per gli agenti

La piattaforma NVIDIA Vera Rubin include sette nuovi chip in piena produzione per scalare le fabbriche IA più grandi al mondo.

All'interno di NVIDIA Groq 3 LPX: il settimo chip della piattaforma NVIDIA Vera Rubin

NVIDIA Groq 3 LPX estende la fabbrica IA con la generazione di token deterministica e a bassa latenza che completa le GPU NVIDIA Rubin per i carichi di lavoro di inferenza in tempo reale.

Prestazioni di inferenza

Latenza estremamente bassa con produttività elevata

Combinando le GPU Rubin per la memoria ad alta larghezza di banda (HBM) e le LPU per la memoria statica ad accesso casuale (SRAM), NVIDIA Vera Rubin con LPX offre una nuova classe di prestazioni di inferenza per modelli da trilioni di parametri e contesto da milioni di token. Distribuite con Vera Rubin NVL72, le GPU e le LPU Rubin potenziano la decodifica calcolando congiuntamente ogni livello del modello IA per ogni token di output.

Produttività 35 volte superiore per i modelli da mille miliardi di parametri

I sistemi agentici consumano fino a 15 volte più token rispetto alle applicazioni IA tradizionali. Le fabbriche IA devono offrire un volume di token ed enormi finestre contestuali con bassa latenza ed efficienza economica. In combinazione con LPX, Vera Rubin NVL72 offre un throughput per megawatt (MW) fino a 35 volte superiore per i modelli da mille miliardi di parametri.

TPS: token al secondo. Prestazioni previste soggette a modifica. Piano gratuito ($0): modello Qwen-3 da 235 miliardi di parametri con 32.000 token memorizzati nella cache chiave-valore (KV). Livello medio ($3): modello Kimi K2.5 da 1 trilione di parametri con 128K token in cache KV. Livello alto ($6): modello GPT-MoE da 2 trilioni di parametri con 128.000 token memorizzati in cache KV. Livelli Premium ($45) e Ultra ($150): modello GPT-MoE da 2 bilioni di parametri con 400.000 token memorizzati in cache KV.


Una nuova categoria di inferenza: un'opportunità di fatturato 10 volte superiore

Gli agenti sono unità di intelligenza e l'inferenza è il loro carburante. Per offrire valore nel mondo reale, i sistemi per agenti hanno bisogno di token di alto valore che siano più veloci e contengano più contesto. Quando LPX è abbinata a Vera Rubin, le fabbriche IA possono produrre token premium su larga scala, ottenendo un fatturato per watt 10 volte superiore.

Ricavi proiettati basati sul throughput delle fabbriche IA per gigawatt e sul modello di prezzi a scaglioni basato sul costo stimato per milione di token.

Acceleratore di inferenza NVIDIA Groq 3 LPU

NVIDIA Groq 3 LPU è la nuova generazione dell'innovativa unità di elaborazione linguistica di Groq. Ogni rack LPX è dotato di 256 acceleratori LPU interconnessi che, insieme alla piattaforma NVIDIA Vera Rubin, potenziano l'inferenza. Ogni acceleratore LPU offre 500 megabyte (MB) di SRAM, 150 terabyte al secondo (TB/s) di larghezza di banda SRAM e una larghezza di banda scalabile di 2,5 TB/s.

Acceleratore di inferenza NVIDIA Groq 3 LPU

NVIDIA Groq 3 LPU è la nuova generazione dell'innovativa unità di elaborazione linguistica di Groq. Ogni rack LPX è dotato di 256 acceleratori LPU interconnessi che, insieme alla piattaforma NVIDIA Vera Rubin, potenziano l'inferenza. Ogni acceleratore LPU offre 500 megabyte (MB) di SRAM, 150 terabyte al secondo (TB/s) di larghezza di banda SRAM e una larghezza di banda scalabile di 2,5 TB/s.

Innovazioni tecnologiche

Co-progettazione estrema. Risultati straordinari.

Creato attraverso una co-progettazione estrema, NVIDIA Vera Rubin NVL72 unifica sette chip appositamente progettati in un singolo supercomputer IA.

Scala rack

In un unico rack LPX, 256 chip LPU si riuniscono per offrire prestazioni estreme.

Fusion Memory Architecture

In ogni rack, LPX offre 128 GB di SRAM per l'elaborazione a bassa latenza e 12 TB di memoria DDR5 per modelli e carichi di lavoro di grandi dimensioni.

SRAM ad alta velocità

40 petabyte al secondo (PB/s) di larghezza di banda SRAM per rack offre una bassa latenza.

Larghezza di banda scalabile enorme

I collegamenti diretti chip-to-chip offrono 640 TB/s di larghezza di banda scale-up nel rack LPX per la comunicazione tra chip a bassa latenza.

Connessione ad alta velocità con NVIDIA NVL72

Le connessioni ad alta velocità di LPX a NVL72 riducono la latenza quasi a zero.

Rack NVIDIA MGX ETL

LPX sfrutta il rack NVIDIA MGX™ per l'estrazione, la trasformazione e il caricamento (ETL), consentendo alle token factory di pianificare un singolo rack universale nelle distribuzioni della piattaforma NVIDIA Vera Rubin.

Inizia

Ricevi gli aggiornamenti sulle novità NVIDIA

Iscriviti per ricevere le ultime notizie, gli aggiornamenti e altro da NVIDIA.