NVIDIA Vera Rubin NVL72

Creare la nuova frontiera dell'IA agentica.

Panoramica

Sette nuovi chip, un supercomputer IA

NVIDIA Vera Rubin NVL72 unifica le tecnologie all'avanguardia di NVIDIA: 72 GPU Rubin, 36 CPU Vera, SuperNIC NVIDIA ConnectX™-9 e DPU BlueField™-4. Aumenta l'intelligenza in una piattaforma su scala rack con lo switch NVIDIA NVLink™ 6 e scala orizzontalmente con NVIDIA Quantum-X800 InfiniBand e Spectrum-X™ Ethernet per alimentare la rivoluzione industriale dell'IA su larga scala. Se distribuita con i rack NVIDIA Groq 3 LPX, Vera Rubin NVL72 offre una nuova classe di prestazioni di inferenza per modelli da trilioni di parametri e contesti da milioni di token.

Vera Rubin NVL72 è basato sul design del rack NVIDIA MGX™ NVL72 di terza generazione, offrendo una transizione fluida rispetto alle generazioni precedenti. Offre addestramento IA con un quarto delle GPU e inferenza IA a un decimo del costo per milione di token rispetto a NVIDIA Blackwell. Con il design di vassoi modulari senza cavi e il supporto di oltre 80 partner dell'ecosistema MGX, il supercomputer IA scalabile in rack offre prestazioni di livello mondiale con una distribuzione rapida.

NVIDIA Vera Rubin entra in piena produzione per alimentare le fabbriche di IA agentica in tutto il mondo

NVIDIA Vera Rubin sta passando alla piena produzione, con i principali produttori di server di Taiwan e i leader globali della supply chain che producono e spediscono sistemi basati su Vera Rubin su larga scala, alimentando i laboratori IA, i fornitori di cloud e gli hyperscaler per creare l'intelligenza di domani.

Leggi il comunicato stampa

NVIDIA Vera Rubin apre la frontiera dell'IA per gli agenti

La piattaforma NVIDIA Vera Rubin offre sette nuovi chip, ora in piena produzione, per scalare le fabbriche IA più grandi al mondo.

Leggi il comunicato stampa

Prestazioni

Enormi guadagni di efficienza nell'inferenza e nell'addestramento IA

Prestazioni di inferenza LLM soggette a modifiche. Costo per 1 milione di token basato sul modello Kimi-K2-Thinking che utilizza 32K/8K ISL/OSL confrontando NVIDIA GB200 NVL72 e NVIDIA Vera Rubin NVL72.

Ridurre i costi dell'inferenza

NVIDIA Vera Rubin NVL72 offre un decimo del costo per milione di token rispetto a NVIDIA GB200 NVL72 per l'IA agentica altamente interattiva e capace di ragionamento profondo.

Massimizzare il throughput delle fabbriche IA

NVIDIA Vera Rubin NVL72 offre fino a 10 volte più token per megawatt rispetto a NVIDIA GB200 NVL72, scalando l'intelligenza con lo stesso impatto energetico.

Prestazioni di inferenza LLM soggette a modifiche. Token al secondo per MW basati sul modello di pensiero Kimi-K2 che utilizza 32K/8K ISL/OSL che confronta NVIDIA GB200 NVL72 e NVIDIA Vera Rubin NVL72.

Prestazioni previste soggette a modifica. Numero di GPU basate su un modello MoE da 10T addestrato su 100T token in un periodo di tempo fisso di 1 mese confrontando NVIDIA GB200 NVL72 e NVIDIA Vera Rubin NVL72.

Aumentare l'efficienza dell'addestramento

NVIDIA Vera Rubin NVL72 addestra modelli mixture-of-experts (MoE) con un quarto del numero di GPU rispetto a NVIDIA GB200 NVL72.

Throughput 35 volte superiore per i modelli da mille miliardi di parametri

I sistemi agentici consumano fino a 15 volte più token rispetto alle applicazioni IA tradizionali. Le fabbriche IA devono offrire un volume di token ed enormi finestre contestuali a bassa latenza e un'economia efficiente. In combinazione con LPX, Vera Rubin NVL72 offre un throughput per megawatt fino a 35 volte superiore per i modelli da mille miliardi di parametri.

Prestazioni previste soggette a modifica. Piano gratuito ($0): modello Qwen-3 da 235 miliardi di parametri con 32K token memorizzati in cache KV. Livello medio ($3): modello Kimi K2.5 da 1.000 miliardi di parametri con 128K token in cache KV. Livello alto ($6): modello GPT-MoE da 2 trilioni di parametri con 128K token memorizzati in cache KV. Livelli Premium ($45) e Ultra ($150): modello GPT-MoE da 2 bilioni di parametri con 400.000 token memorizzati in cache KV.

Alimentare l'era degli agenti IA

La piattaforma Vera Rubin

La piattaforma Vera Rubin apre la prossima frontiera dell'IA agentica con cinque rack per scalare le fabbriche IA mondiali: NVIDIA Vera Rubin NVL72, CPU NVIDIA Vera, NVIDIA Groq 3 LPX, NVIDIA Vera BlueField-4 STX e NVIDIA Spectrum-6 SPX Ethernet. Progettati per operare insieme come un unico incredibile supercomputer IA, i rack alimentano ogni fase dell'IA, dal pre-addestramento su larga scala, passando per il post-addestramento e la scalabilità durante i test fino all'inferenza agentica in tempo reale.

Scopri di più

GPU NVIDIA Rubin

Le GPU Rubin con HBM4 e 50 PF NVFP4 Transformer Engine sono progettate per la nuova generazione di IA.

Scopri di più

CPU NVIDIA Vera

Le CPU Vera sono progettate appositamente per il movimento di dati e il ragionamento legato all'intenzionalità, offrendo calcolo ad alta larghezza di banda, efficienza energetica e prestazioni deterministiche.

Scopri di più

Switch NVIDIA NVLink 6

Gli switch NVLink 6 offrono 3,6 terabyte al secondo (TB/s) di larghezza di banda scalabile per GPU, consentendo le comunicazioni GPU-GPU ad alta velocità per l'IA.

Scopri di più

NVIDIA ConnectX-9 SuperNIC

Le SuperNIC ConnectX‑9 offrono 1,6 terabit al secondo (Tb/s) di larghezza di banda per GPU, con accesso remoto diretto alla memoria (RDMA) programmabile per il networking GPU-direct a bassa latenza su larga scala.

Scopri di più

DPU NVIDIA BlueField-4

Le DPU BlueField-4 accelerano l'elaborazione dei dati nello storage, nel networking, nella sicurezza informatica e nella scalabilità elastica nelle fabbriche di IA.

Scopri di più

Ottica co-packaged NVIDIA Spectrum-X Ethernet

Gli switch scale-out Spectrum‑X Ethernet con fotonica in silicio integrata offrono un'efficienza energetica 5 volte superiore, una resilienza di rete 10 volte superiore e un tempo di attività fino a 5 volte superiore rispetto alle reti tradizionali con i ricetrasmettitori collegabili.

Scopri di più

NVIDIA Groq 3 LPU

Questo è l'acceleratore di inferenza per NVIDIA Vera Rubin NVL72, progettato per soddisfare le esigenze di bassa latenza e contesto ampio dei sistemi agentici. Il rack NVIDIA Groq 3 LPX è dotato di 256 LPU con SRAM da 128 GB, larghezza di banda di memoria 40 PB/s e larghezza di banda scale-up da 640 TB/s per rack. È co-progettato con Vera Rubin NVL72 per offrire prestazioni di inferenza per watt 35 volte superiori e opportunità di fatturato fino a 10 volte superiori per i modelli da trilioni di parametri rispetto a Blackwell.

Scopri di più

NVIDIA Vera Rubin NVL4

NVIDIA Vera Rubin NVL4 offre prestazioni rivoluzionarie attraverso quattro GPU NVIDIA Rubin interconnesse da un bridge NVLink di seconda generazione che esegue NVIDIA NVLink di sesta generazione, in combinazione con due CPU NVIDIA Vera su NVLink-C2C. Compatibile con i server modulari NVIDIA MGX™ raffreddati a liquido, offre prestazioni fino a 4 volte superiori per la simulazione di calcolo scientifico, 6 volte superiori per l'addestramento AI-for-Science e 8 volte superiori per l'inferenza AI-for-Science rispetto a Grace Hopper.

Scopri di più

Specifiche¹

Specifiche di NVIDIA Vera Rubin NVL72

	NVIDIA Vera Rubin NVL72	Superchip NVIDIA Vera Rubin	GPU NVIDIA Rubin
Configurazione	72 GPU NVIDIA Rubin \| 36 CPU NVIDIA Vera	2 GPU Rubin \| 1 CPU Vera	1 GPU Rubin
Inferenza NVFP4	3.600 PFLOPS	100 PFLOPS	50 PFLOPS
Addestramento su NVFP4²	2.520 PFLOPS	70 PFLOPS	35 PFLOPS
Addestramento FP8/FP6²	1.260 PFLOPS	35 PFLOPS	17,5 PFLOPS
INT8² Dense	18 POPS	500 TOPS	250 TOPS
FP16/BF16² Dense	288 PFLOPS	8 PFLOPS	4 PFLOPS
TF32² Dense	144 PFLOPS	4 PFLOPS	2 PFLOPS
FP32	9.360 TFLOPS	260 TFLOPS	130 TFLOPS
FP64	2.400 TFLOPS	67 TFLOPS	33 TFLOPS
FP32 SGEMM³	28.800 TFLOPS	800 TFLOPS	400 TFLOPS
FP64 DGEMM³	14.400 TFLOPS	400 TFLOPS	200 TFLOPS
Memoria GPU \| Larghezza di banda	20,7 TB HBM4 \| 1.580 TB/s	576 GB HBM4 \| 44 TB/s	288 GB HBM4 \| 22 TB/s
NVIDIA NVLink	Sesta generazione
Larghezza di banda NVLink	260 TB/s (larghezza di banda di NVLink 6 switch)	7,2 TB/s	3,6 TB/s
Larghezza di banda NVLink-C2C	65 TB/s	1,8 TB/s	-
Numero di core CPU	3.168 core NVIDIA Olympus personalizzati (compatibili con Arm®)	88 core NVIDIA Olympus personalizzati (compatibili con Arm®)	-
Memoria CPU	54 TB LPDDR5X	1,5 TB LPDDR5X	-
Larghezza di banda di rete (scalabilità)	28,8 TB/s	0,8 TB/s	0,4 TB/s
Totale chip NVIDIA + HBM4	1.296	30	12

1. Informazioni preliminari, tutti i valori sono indicativi e soggetti a modifiche
2. Specifica densa
3. Prestazioni di picco con gli algoritmi di emulazione basati su Tensor Core

Leggi la scheda tecnica di NVIDIA Vera Rubin

Inizia

Ricevi le ultime notizie da NVIDIA

Iscriviti per ricevere le ultime notizie, gli aggiornamenti e altro da NVIDIA.

Ricevi gli ultimi aggiornamenti