Creare la nuova frontiera dell'IA agentica.
Panoramica
NVIDIA Vera Rubin NVL72 riunisce le tecnologie all'avanguardia di NVIDIA: 72 GPU Rubin, 36 CPU Vera, ConnectX®-9 SuperNIC™ e DPU BlueField®-4. Aumenta l'intelligenza in una piattaforma su scala rack con lo switch NVIDIA NVLink™ 6 e scala orizzontalmente con NVIDIA Quantum-X800 InfiniBand e Spectrum-X™ Ethernet per alimentare la rivoluzione industriale dell'IA su larga scala. Se distribuita con i rack NVIDIA Groq 3 LPX, Vera Rubin NVL72 offre una nuova classe di prestazioni di inferenza per modelli da trilioni di parametri e contesto da milioni di token.
Vera Rubin NVL72 è basato sul design rack NVIDIA MGX™ NVL72 di terza generazione, offrendo una transizione fluida rispetto alle generazioni precedenti. Offre addestramento IA con un quarto delle GPU e inferenza IA a un decimo del costo per milione di token rispetto a NVIDIA Blackwell. Con il design di vassoi modulari senza cavi e il supporto di oltre 80 partner dell'ecosistema MGX, il supercomputer IA scalabile in rack offre prestazioni di livello mondiale con una distribuzione rapida.
Prestazioni
Prestazioni di inferenza LLM soggette a modifiche. Costo per 1 milione di token basato sul modello Kimi-K2-Thinking che utilizza 32K/8K ISL/OSL confrontando NVIDIA GB200 NVL72 e NVIDIA Vera Rubin NVL72.
NVIDIA Vera Rubin NVL72 offre un decimo del costo per milione di token rispetto a NVIDIA GB200 NVL72 per l'IA agentica altamente interattiva e capace di ragionamento profondo.
NVIDIA Vera Rubin NVL72 offre fino a 10 volte più token per megawatt rispetto a NVIDIA GB200 NVL72, scalando l'intelligenza con lo stesso impatto energetico.
Prestazioni di inferenza LLM soggette a modifiche. Token al secondo per MW basati sul modello di pensiero Kimi-K2 che utilizza 32K/8K ISL/OSL che confronta NVIDIA GB200 NVL72 e NVIDIA Vera Rubin NVL72.
Prestazioni previste soggette a modifica. Numero di GPU basate su un modello MoE da 10T addestrato su 100T token in un periodo di tempo fisso di 1 mese confrontando NVIDIA GB200 NVL72 e NVIDIA Vera Rubin NVL72.
NVIDIA Vera Rubin NVL72 addestra modelli mixture-of-experts (MoE) con un quarto del numero di GPU rispetto a NVIDIA GB200 NVL72.
I sistemi agentici consumano fino a 15 volte più token rispetto alle applicazioni IA tradizionali. Le fabbriche IA devono offrire un volume di token ed enormi finestre contestuali a bassa latenza e un'economia efficiente. In combinazione con LPX, Vera Rubin NVL72 offre un throughput per megawatt fino a 35 volte superiore per i modelli da mille miliardi di parametri.
Projected performance subject to change. Free Tier ($0): Qwen-3 235-billion parameter model with 32K KV-cached tokens. Medium Tier ($3): Kimi K2.5 1-trillion parameter model with 128K KV-cached tokens. High Tier ($6): GPT-MoE 2-trillion parameter model with 128K KV-cached tokens. Premium ($45) and Ultra ($150) Tiers: GPT-MoE 2-trillion parameter model with 400K KV-cached tokens.
Alimentare l'era degli agenti IA
Specifiche¹
| NVIDIA Vera Rubin NVL72 | Superchip NVIDIA Vera Rubin | GPU NVIDIA Rubin | |
|---|---|---|---|
| Configurazione | 72 GPU NVIDIA Rubin | 36 CPU NVIDIA Vera | 2 GPU Rubin | 1 CPU Vera | 1 GPU Rubin |
| Inferenza NVFP4 | 3.600 PFLOPS | 100 PFLOPS | 50 PFLOPS |
| Addestramento su NVFP4² | 2.520 PFLOPS | 70 PFLOPS | 35 PFLOPS |
| Addestramento FP8/FP6² | 1.260 PFLOPS | 35 PFLOPS | 17,5 PFLOPS |
| INT8² Dense | 18 POPS | 500 TOPS | 250 TOPS |
| FP16/BF16² Dense | 288 PFLOPS | 8 PFLOPS | 4 PFLOPS |
| TF32² Dense | 144 PFLOPS | 4 PFLOPS | 2 PFLOPS |
| FP32 | 9.360 TFLOPS | 260 TFLOPS | 130 TFLOPS |
| FP64 | 2.400 TFLOPS | 67 TFLOPS | 33 TFLOPS |
| FP32 SGEMM³ | 28.800 TFLOPS | 800 TFLOPS | 400 TFLOPS |
| FP64 DGEMM³ | 14.400 TFLOPS | 400 TFLOPS | 200 TFLOPS |
| Memoria GPU | Larghezza di banda | 20,7 TB HBM4 | 1.580 TB/s | 576 GB HBM4 | 44 TB/s | 288 GB HBM4 | 22 TB/s |
| NVIDIA NVLink | Sesta generazione | ||
| Larghezza di banda NVLink | 260 TB/s (larghezza di banda di NVLink 6 switch) |
7,2 TB/s | 3,6 TB/s |
| Larghezza di banda NVLink-C2C | 65 TB/s | 1,8 TB/s | - |
| Numero di core CPU | 3.168 core NVIDIA Olympus personalizzati (compatibili con Arm®) | 88 core NVIDIA Olympus personalizzati (compatibili con Arm®) | - |
| Memoria CPU | 54 TB LPDDR5X | 1,5 TB LPDDR5X | - |
| Larghezza di banda di rete (scalabilità) | 28,8 TB/s | 0,8 TB/s | 0,4 TB/s |
| Totale chip NVIDIA + HBM4 | 1.296 | 30 | 12 |
1. Informazioni preliminari, tutti i valori sono indicativi e soggetti a modifiche
2. Specifica densa
3. Prestazioni di picco con gli algoritmi di emulazione basati su Tensor Core
Inizia
Iscriviti per ricevere le ultime notizie, gli aggiornamenti e altro da NVIDIA.