Den nächsten Meilenstein der KI gestalten
Überblick
NVIDIA Vera Rubin NVL72 verbindet modernste Technologien von NVIDIA: 72 Rubin-GPUs, 36 Vera-CPUs, ConnectX®-9 SuperNICs und BlueField®-4 DPUs. Die Plattform skaliert KI-Leistungsfähigkeit innerhalb eines Rack-Scale-Systems mit dem NVIDIA NVLink™ 6 Switch und skaliert horizontal mit NVIDIA Quantum-X800 InfiniBand und Spectrum-X™ Ethernet als Basis für die industrielle KI-Transformation im großen Maßstab.
Vera Rubin NVL72 basiert auf dem NVIDIA MGX™ NVL72 Rack-Design der dritten Generation und bietet einen nahtlosen Übergang zu Vorgängergenerationen. Es ermöglicht KI-Training mit einem Viertel der GPUs und KI-Inferenz zu einem Siebtel der Kosten pro Million Token im Vergleich zu NVIDIA Blackwell. Mit kabellosen modularen Tray-Designs und der Unterstützung von über 80 MGX-Ökosystempartnern bietet der KI-Supercomputer im Rack-Maßstab erstklassige Leistung bei schneller Bereitstellung.
Leistung
NVIDIA Rubin trainiert MoE- (Mixture-of-Expert-)Modelle mit nur einem Viertel der GPUs auf der NVIDIA Blackwell-Architektur.
Änderungen bei der Leistung vorbehalten. Anzahl der GPUs auf Basis eines 10-T-MoE-Modells, die in einem festen Zeitrahmen von einem Monat mit 100-T-Token trainiert wurden.
Änderungen der LLM-Inferenzleistung vorbehalten. Kosten pro 1 Million Token basierend auf einem Kimi-K2-Thinking-Modell mit 32K/8K ISL/OSL und Vergleich von Blackwell GB200 NVL72 und Rubin NVL72.
NVIDIA Rubin bietet zu einem Zehntel der Kosten pro Million Tokens verglichen mit NVIDIA Blackwell eine hochinteraktive agentische KI mit fortgeschrittener Schlussfolgerungsfähigkeit.
Technologische Durchbrüche
Spezifikationen¹
| NVIDIA Vera Rubin NVL72 | NVIDIA Vera Rubin Superchip | NVIDIA Rubin GPU | |
|---|---|---|---|
| Konfiguration: | 72 NVIDIA Rubin GPUs | 36 NVIDIA Vera CPUs | 2 Rubin GPUs | 1 Vera CPU | 1 Rubin GPU |
| NVFP4 Inferenz | 3,600 PFLOPS | 100 PFLOPS | 50 PFLOPS |
| NVFP4 Training | 2,520 PFLOPS | 70 PFLOPS | 35 PFLOPS |
| FP8/FP6 Training | 1,260 PFLOPS | 35 PFLOPS | 17,5 PFLOPS |
| INT8² Dense | 18 POPS | 0,5 POPS | 0,25 POPS |
| FP16/BF16² Dense | 288 PFLOPS | 8 PFLOPS | 4 PFLOPS |
| TF32² Dense | 144 PFLOPS | 4 PFLOPS | 2 PFLOPS |
| FP32 | 9,360 TFLOPS | 260 TFLOPS | 130 TFLOPS |
| FP64 | 2,400 TFLOPS | 67 TFLOPS | 33 TFLOPS |
| FP32 SGEMM³ | 28,800 TFLOPS | 800 TFLOPS | 400 TFLOPS |
| FP64 DGEMM³ | 14,400 TFLOPS | 400 TFLOPS | 200 TFLOPS |
| GPU-Speicher | Bandbreite | 20,7 TB HBM4 | 1.580 TB/s | 576 GB HBM4 | 44 TB/s | 288 GB HBM4 | 22 TB/s |
| Bandbreite von NVLink | 260 TB/s | 7,2 TB/s | 3,6 TB/s |
| NVLink-C2C Bandbreite | 65 TB/s | 1,8 TB/s | – |
| Anzahl der CPU-Recheneinheiten | 3.168 benutzerdefinierte NVIDIA Olympus-Kerne (Arm-kompatibel) | 88 benutzerdefinierte NVIDIA Olympus-Kerne (Arm-kompatibel) | – |
| CPU-Speicher | 54 TB LPDDR5X | 1,5 TB LPDDR5X | – |
| NVIDIA + HBM4-Chips insgesamt | 1.296 | 30 | 12 |
1. Vorläufige Informationen – alle Werte sind als "bis zu" zu verstehen und können sich ändern
2. Dichte Spezifikation
3. Spitzenleistung mit auf Tensor Core basierenden Emulationsalgorithmen
Erste Schritte
Melden Sie sich an, um aktuelle Nachrichten, Updates und mehr von NVIDIA zu erhalten.