Bâtir la nouvelle frontière de l'IA agentique.
Aperçu
NVIDIA Vera Rubin NVL72 unifie les technologies de pointe de NVIDIA : 72 GPU Rubin, 36 CPU Vera, SuperNIC ConnectX®-9 et DPU BlueField®-4. Il augmente l'intelligence dans une plateforme à l'échelle du rack grâce au commutateur NVIDIA NVLink™ 6, et évolue avec NVIDIA Quantum-X800 InfiniBand et Spectrum-X™ Ethernet pour alimenter la révolution industrielle de l'IA à grande échelle. Lorsqu'il est déployé avec des racks NVIDIA Groq 3 LPX, Vera Rubin NVL72 fournit un nouveau niveau de performances d'inférence pour les modèles comportant des trillions de paramètres et un contexte d'un million de jetons.
Vera Rubin NVL72 repose sur la conception de rack NVIDIA MGX™ NVL72 de troisième génération, ce qui permet une transition en douceur avec les générations précédentes. Elle fournit un entraînement d'IA avec un quart des GPU et une inférence d'IA pour un dixième du coût par million de jetons par rapport à NVIDIA Blackwell. Grâce à des conceptions de plateaux modulaires sans câble et à une prise en charge de plus de 80 partenaires de l'écosystème MGX, le supercalculateur d'IA à l'échelle de la baie offre des performances de classe mondiale avec un déploiement rapide.
Performances
Performances d'inférence LLM sujettes à modification. Coût par million de jetons basé sur un modèle Kimi-K2-Thinking utilisant 32K/8K ISL/OSL en comparant NVIDIA GB200 NVL72 et NVIDIA Vera Rubin NVL72.
NVIDIA Vera Rubin NVL72 délivre un dixième du coût par million de jetons par rapport à NVIDIA GB200 NVL72 pour une IA agentique hautement interactive et dotée d'un raisonnement approfondi.
NVIDIA Vera Rubin NVL72 fournit jusqu'à 10 fois plus de jetons par mégawatt que NVIDIA GB200 NVL72, permettant une intelligence évolutive tout en conservant la même empreinte énergétique.
Performances d'inférence LLM sujettes à modification. Jetons par seconde par mégawatt basés sur le modèle Kimi-K2 Thinking utilisant 32K/8K ISL/OSL en comparant NVIDIA GB200 NVL72 et NVIDIA Vera Rubin NVL72.
Projections de performance sujettes à modification. Nombre de GPU basés sur un modèle MoE 10T entraîné sur 100 T de jetons sur une période fixe d'un mois, en comparant NVIDIA GB200 NVL72 et NVIDIA Vera Rubin NVL72.
NVIDIA Vera Rubin NVL72 entraîne des modèles MoE (Mixture-of-Experts) avec un quart du nombre de GPU par rapport à NVIDIA GB200 NVL72.
Les systèmes agentiques consomment jusqu'à 15 fois plus de jetons que les applications d'IA traditionnelles. Les usines d'IA doivent par conséquent fournir un volume élevé de jetons et d'importantes fenêtres de contexte avec une latence faible et une économie efficace. L'association de LPX et de Vera Rubin NVL72 fournit un débit par mégawatt jusqu'à 35 fois supérieur pour des modèles comportant des billions de paramètres.
Projected performance subject to change. Free Tier ($0): Qwen-3 235-billion parameter model with 32K KV-cached tokens. Medium Tier ($3): Kimi K2.5 1-trillion parameter model with 128K KV-cached tokens. High Tier ($6): GPT-MoE 2-trillion parameter model with 128K KV-cached tokens. Premium ($45) and Ultra ($150) Tiers: GPT-MoE 2-trillion parameter model with 400K KV-cached tokens.
Alimenter l'ère des agents d'IA
Spécifications¹
| NVIDIA Vera Rubin NVL72 | Superpuce NVIDIA Vera Rubin | GPU NVIDIA Rubin | |
|---|---|---|---|
| Configuration | 72 GPU NVIDIA Rubin | 36 CPU NVIDIA Vera | 2 GPU Rubin | 1 CPU Vera | 1 GPU Rubin |
| Inférence NVFP4 | 3 600 PFLOPS | 100 PFLOPS | 50 PFLOPS |
| Entraînement NVFP4² | 2 520 PFLOPS | 70 PFLOPS | 35 PFLOPS |
| Entraînement FP8/FP6² | 1 260 PFLOPS | 35 PFLOPS | 17,5 PFlops |
| Dense INT8² | 18 POPS | 500 TOPS | 250 TOPS |
| Dense FP16/BF16² | 288 PFLOPS | 8 PFLOPS | 4 PFLOPS |
| Dense TF32² | 144 PFlops | 4 PFLOPS | 2 PFlops |
| FP32 | 9 360 TFLOPS | 260 TFLOPS | 130 TFLOPS |
| FP64 | 2 400 TFLOPS | 67 TFlops | 33 TFLOPS |
| FP32 SGEMM³ | 28 800 TFLOPS | 800 TFLOPS | 400 TFLOPS |
| FP64 DGEMM³ | 14 400 TFLOPS | 400 TFLOPS | 200 TFLOPS |
| Mémoire GPU | Bande passante | 20,7 To HBM4 | 1 580 To/s | 576 Go HBM4 | 44 To/s | 288 Go HBM4 | 22 To/s |
| NVIDIA NVLink | Sixième génération | ||
| Bande passante NVLink | 260 To/s (bande passante du commutateur NVLink 6) |
7,2 To/s | 3,6 To/s |
| Bande passante NVLink-C2C | 65 To/s | 1,8 To/s | - |
| Nombre de cœurs de CPU | 3 168 cœurs NVIDIA Olympus personnalisés (compatibles avec Arm®) | 88 cœurs NVIDIA Olympus personnalisés (compatibles avec Arm®) | - |
| Mémoire CPU | 54 To LPDDR5X | 1,5 To LPDDR5X | - |
| Bande passante de mise en réseau (évolutivité) | 28,8 To/s | 0,8 To/s | 0,4 To/s |
| Total des puces NVIDIA + HBM4 | 1 296 | 30 | 12 |
1. Informations préliminaires, toutes les valeurs sont approximatives et sujettes à modification
2. Spécification Dense
3. Performances maximales avec des algorithmes d'émulation basés sur le Cœur Tensor
Démarrer
Inscrivez-vous pour recevoir les dernières actualités et annonces de NVIDIA.