NVIDIA Groq 3 LPX

L'acceleratore di inferenza per NVIDIA Vera Rubin.

Panoramica

La velocità incontra la scala

In passato, le architetture di inferenza IA offrivano interattività e intelligenza a scapito del throughput, oppure throughput e intelligenza a scapito dell'interattività. Non era possibile averli tutte e tre. I sistemi agentici richiedono di più.

NVIDIA Groq 3 LPX è l'acceleratore di inferenza per NVIDIA Vera Rubin, progettato per soddisfare le esigenze di bassa latenza e contesti ampi dei sistemi agentici. Vera Rubin e LPX uniscono le prestazioni estreme delle GPU e delle LPU NVIDIA Rubin attraverso un'architettura co-progettata.

NVIDIA Vera Rubin apre la frontiera dell'IA per agenti

La piattaforma NVIDIA Vera Rubin include sette nuovi chip in piena produzione per scalare le fabbriche IA più grandi al mondo.

Dentro NVIDIA Groq 3 LPX: il settimo chip della piattaforma NVIDIA Vera Rubin

NVIDIA Groq 3 LPX estende la fabbrica IA con la generazione di token deterministica e a bassa latenza che completa le GPU NVIDIA Rubin per i carichi di lavoro di inferenza in tempo reale.

prestazioni di inferenza

Latenza estremamente bassa con produttività elevata

Combinando le GPU Rubin per la memoria ad alta larghezza di banda (HBM) e le LPU per la memoria statica ad accesso casuale (SRAM), NVIDIA Vera Rubin con LPX offre una nuova classe di prestazioni di inferenza per modelli da trilioni di parametri e contesto da milioni di token. Distribuite con Vera Rubin NVL72, le GPU e le LPU Rubin potenziano la decodifica calcolando congiuntamente ogni livello del modello IA per ogni token di output.

Throughput 35 volte superiore per modelli da trilioni di parametri

I sistemi agentici consumano fino a 15 volte più token rispetto alle applicazioni IA tradizionali. Le fabbriche IA devono offrire un volume di token ed enormi finestre contestuali a bassa latenza e un'economia efficiente. In combinazione con LPX, Vera Rubin offre una produttività per megawatt fino a 35 volte superiore per modelli da trilioni di parametri.

Una nuova categoria di inferenza: un'opportunità di fatturato 10 volte superiore

Gli agenti sono unità di intelligenza e l'inferenza è il loro carburante. Per offrire un impatto nel mondo reale, i sistemi per agenti hanno bisogno di token veloci e intelligenti. Quando LPX è abbinato a Vera Rubin, il throughput aggiuntivo per watt e le prestazioni dei token aprono un nuovo livello di inferenza ultra-premium, basata su trilioni di parametri e in milioni di contesti, espandendo le opportunità di fatturato per tutti i fornitori di IA.

Throughput 35 volte superiore per modelli da trilioni di parametri

I sistemi agentici consumano fino a 15 volte più token rispetto alle applicazioni IA tradizionali. Le token factory devono offrire un volume di token ed enormi finestre contestuali a bassa latenza e un'economia efficiente. In combinazione con LPX, Vera Rubin offre una produttività per megawatt fino a 35 volte superiore per modelli da trilioni di parametri.

Una nuova categoria di inferenza: un'opportunità di fatturato 10 volte superiore

Gli agenti sono unità di intelligenza e l'inferenza è il loro carburante. Per offrire valore nel mondo reale, i sistemi per agenti hanno bisogno di token di alto valore che siano più veloci e contengano più contesto. Quando LPX è abbinata a Vera Rubin, le fabbriche IA possono produrre token premium su larga scala, ottenendo un fatturato per watt 10 volte superiore.

Acceleratore di inferenza NVIDIA Groq 3 LPU

NVIDIA Groq 3 LPU è la nuova generazione dell'innovativa unità di elaborazione linguistica di Groq. Ogni rack LPX è dotato di 256 acceleratori LPU interconnessi che, insieme alla piattaforma NVIDIA Vera Rubin, potenziano l'inferenza. Ogni acceleratore LPU offre 500 megabyte (MB) di SRAM, 150 terabyte al secondo (TB/s) di larghezza di banda SRAM e una larghezza di banda scalabile di 2,5 TB/s.

Acceleratore di inferenza NVIDIA Groq 3 LPU

NVIDIA Groq 3 LPU è la nuova generazione dell'innovativa unità di elaborazione linguistica di Groq. Ogni rack LPX è dotato di 256 acceleratori LPU interconnessi che, insieme alla piattaforma NVIDIA Vera Rubin, potenziano l'inferenza. Ogni acceleratore LPU offre 500 megabyte (MB) di SRAM, 150 terabyte al secondo (TB/s) di larghezza di banda SRAM e una larghezza di banda scalabile di 2,5 TB/s.

Innovazioni tecnologiche

Co-progettazione estrema. Risultati straordinari.

Creato attraverso una co-progettazione estrema, NVIDIA Vera Rubin NVL72 unifica sette chip appositamente progettati in un singolo supercomputer IA.

Scala rack

In un unico rack LPX, 256 chip LPU si riuniscono per offrire prestazioni estreme.

Fusion Memory Architecture

In ogni rack, LPX offre 128 GB di SRAM per l'elaborazione a bassa latenza e 12 TB di memoria DDR5 per modelli e carichi di lavoro di grandi dimensioni.

SRAM ad alta velocità

40 petabyte al secondo (PB/s) di larghezza di banda SRAM per rack offre una bassa latenza.

Larghezza di banda scalabile enorme

I collegamenti diretti chip-to-chip offrono 640 TB/s di larghezza di banda scale-up nel rack LPX per la comunicazione tra chip a bassa latenza.

Connessione ad alta velocità con NVIDIA NVL72

Le connessioni ad alta velocità di LPX a NVL72 riducono la latenza quasi a zero.

Rack NVIDIA MGX ETL

LPX sfrutta il rack NVIDIA MGX™ per l'estrazione, la trasformazione e il caricamento (ETL), consentendo alle token factory di pianificare un singolo rack universale nelle distribuzioni della piattaforma NVIDIA Vera Rubin.

Inizia

Ricevi gli aggiornamenti sulle novità NVIDIA

Iscriviti per ricevere le ultime notizie, gli aggiornamenti e altro da NVIDIA.