Beschleunigung von KI und High-Performance-Computing für jedes Rechenzentrum.
Die NVIDIA HGX-Plattform vereint die volle Leistungsfähigkeit von NVIDIA-GPUs, NVIDIA Vera-CPUs, NVIDIA NVLink™, NVIDIA-Netzwerktechnik und vollständig optimierten KI- und High-Performance-Computing-Software-Stacks (HPC), um höchstmögliche Anwendungsleistung und kürzeste Zeit für die Gewinnung von Erkenntnissen in jedem Rechenzentrum zu bieten.
Der NVIDIA HGX Rubin NVL8 integriert acht NVIDIA Rubin-GPUs mit Hochgeschwindigkeits-NVLink-Verbindungen der sechsten Generation und bietet bis zu 10-mal mehr Token-Factory-Durchsatz im Vergleich zu HGX B200 und erreicht die gleiche Trainingsleistung mit 4-mal weniger GPUs. NVIDIA Rubin-basierte HGX-Systeme sind für die anspruchsvollsten Workloads in den Bereichen agentische KI, Datenanalytik und HPC entwickelt. NVIDIA HGX Rubin NVL8 kann entweder mit NVIDIA Vera-CPUs – konfiguriert als HGX Vera Rubin NVL8 – oder mit x86-basierten CPU-Baseboards kombiniert werden.
Die Bereitstellung von agentischen KI- und Reasoning-Modellen in großem Maßstab erfordert einen extremen Inferenzdurchsatz. Mit architektonischen Innovationen wie 400 PFLOPS NVFP4-Rechenleistung, 3-mal mehr Speicherbandbreite mit 176 TB/s und 2-mal mehr NVLink-Switch-Bandbreite mit 28,8 TB/s für Kommunikation mit hohem Durchsatz zwischen GPUs bietet HGX Rubin NVL8 einen 10-mal höheren Token Factory-Durchsatz im Vergleich zu HGX B200. Dieser Leistungssprung ermöglicht es KI-Fabriken, mehr Benutzer zu bedienen, den Token-Umsatz zu maximieren und die Kosten pro Token zu senken.
Die voraussichtliche Leistung kann Änderungen unterliegen. Kimi K2-Thinking-Modell mit FTL<=500ms, ISL = 4K, OSL = 4K. HGX Rubin NVL8 mit Sparse NVFP4, HGX B200 mit Dense NVFP4
Die voraussichtliche Leistung kann Änderungen unterliegen. Anzahl der GPUs auf Basis von DeepSeek-R1, die auf 15T-Token mit 4K-Sequenzlänge vortrainiert wurden.
HGX Rubin NVL8 bietet bahnbrechendes Mixture-of-Experts-Pre-Training für den 8-GPU-Server-Formfaktor und trainiert agentische KI-Modelle der nächsten Generation mit 4-mal weniger GPUs, ermöglicht durch architektonische Innovationen, darunter 4-mal mehr NVFP4-Trainings-FLOPS, 1,6-mal mehr Hochgeschwindigkeits-HBM-Speicherkapazität und 2-mal mehr Bandbreite von NVLink im Vergleich zu HGX B200. Dieser Sprung in der Trainingseffizienz ermöglicht es Unternehmen, mehr Modelle mit demselben Infrastruktur-Fußabdruck zu trainieren, die Kosten für die Modellentwicklung zu senken und die Rendite von Investitionen in die KI-Infrastruktur zu maximieren.
NVIDIA Vera ist die CPU für das Zeitalter der KI – speziell für agentische KI, bestärkendes Lernen und Datenverarbeitung in großem Maßstab entwickelt. NVIDIA Olympus-Kerne, LPDDR5X-Speicher mit hoher Bandbreite und NVIDIA Scalable Coherency Fabric bieten eine schnelle, effiziente CPU-Ausführung neben beschleunigter Rechenleistung und helfen KI-Fabriken, mehr Agenten, Bewertungen und Datenpipelines auszuführen.
KI-Fabriken und Supercomputing-Zentren umfassen Tausende von GPUs als eine einzige verteilte Rechen-Engine. Damit Beschleuniger stets voll ausgelastet sind, erfordern KI- und wissenschaftliche Workloads deterministische Latenz, verlustfreien Durchsatz, stabile Iterationszeiten und die Möglichkeit, nicht nur innerhalb eines Rechenzentrums, sondern auch über mehrere Standorte hinweg zu skalieren.
NVIDIA-Netzwerke bieten das Full-Stack-Gewebe, das dies ermöglicht, indem sie NVIDIA NVLink Scale-up, NVIDIA Quantum InfiniBand und Spectrum-X™ Ethernet Scale-out, Spectrum-XGS Ethernet Multi-Rechenzentrum Scale-across, NVIDIA® BlueField® DPU und DOCA™ für Infrastrukturdienste sowie Plattformen der nächsten Generation der Silizium-Photonik kombinieren und so die anspruchsvollsten KI-Rechenzentren der Welt ermöglichen.
NVIDIA HGX ist in einem einzigen Baseboard mit acht NVIDIA Rubin-, NVIDIA Blackwell- oder NVIDIA Blackwell Ultra SXMs erhältlich. Rubin-GPUs können mit einer NVIDIA Vera CPU oder einem x86-basierten Baseboard kombiniert werden. Diese leistungsstarken Kombinationen aus Hardware und Software legen den Grundstein für eine beispiellose KI- und Supercomputing-Leistung.
| Systemspezifikationen | NVIDIA HGX Vera Rubin NVL8<sup>1</sup> | NVIDIA HGX Rubin NVL8<sup>1</sup> |
|---|---|---|
| Konfiguration | 8x NVIDIA Rubin SXM mit Single-Socket Vera CPU | 8x NVIDIA Rubin SXM |
| CPU | Anzahl der Kerne | NVIDIA Vera CPU | 88 benutzerdefinierte NVIDIA Olympus-Kerne (Arm®-kompatibel) mit Spatial Multi-Threading (SMT) | x86 CPU<sup>4</sup> |
| CPU-Speicher | Bandbreite | 1,5 TB LPDDR5X | 1,2 TB/s | x86 CPU<sup>4</sup> |
| NVFP4 Inferenz | 400 PFLOPS | |
| NVFP4-Training<sup>2</sup> | 280 PFLOPS | |
| FP8/FP6-Training<sup>2</sup> | 140 PFLOPS | |
| INT8<sup>2</sup> | 2 POPS | |
| FP16/BF16<sup>2</sup> | 32 PFLOPS | |
| TF32<sup>2</sup> | 16 PFLOPS | |
| FP32 | 1,040 TFLOPS | |
| FP64 | 265 TFLOPS | |
| FP32 SGEMM<sup>3</sup> | 3,200 TFLOPS | |
| FP64 DGEMM<sup>3</sup> | 1,600 TFLOPS | |
| GPU-Speicher | Bandbreite | 2,3 TB HBM4 | 176 TB/s | |
| NVLink-Switch-Bandbreite | 28,8 TB/s | |
| NVIDIA NVLink | Sechste Generation | |
| Netzwerkbandbreite | 1,6 TB/s | |
| Individuelle GPU-Spezifikationen | NVIDIA Rubin GPU<sup>1</sup> |
|---|---|
| NVFP4 Inferenz | 50 PFLOPS |
| VNVFP4-Schulung<sup>2</sup> | 35 PFLOPS |
| FP8/FP6-Training<sup>2</sup> | 17.5 PFLOPS |
| INT8<sup>2</sup> | 250 TOPS |
| FP16/BF16<sup>2</sup> | 4 PFLOPS |
| TF3<sup>2</sup> | 2 PFLOPS |
| FP3<sup>1</sup> | 130 TFLOPS |
| FP64 | 33 TFLOPS |
| FP3SGEMM<sup>3</sup> | 400 TFLOPS |
| FP64 DGEMM<sup>3</sup> | 200 TFLOPS |
| Bandbreite von NVLink | 3,6 TB/s |
| NVIDIA NVLink | Sechste Generation |
| GPU-Speicher | Bandbreite | 288 GB HBM4 | 22 TB/s |
1. Vorläufige Informationen. Alle Werte sind bis zu den angegebenen Grenzen gültig und können sich ändern. Die NVFP4-Inferenzspezifikation ist spärlich.
2. Dichte Spezifikation.
3. Spitzenleistung mit Tensor Core-basierten Emulationsalgorithmen.
4. CPU- und Speicherspezifikationen werden durch OEM-Angebote definiert.
| HGX B300<sup>4</sup> | HGX B200<sup>4</sup> | |
|---|---|---|
| Formfaktor | 8x NVIDIA Blackwell Ultra SXM | 8x NVIDIA Blackwell SXM |
| FP4 Tensor Core<sup>1</sup> | 144 PFLOPS | 108 PFLOPS | 144 PFLOPS | 72 PFLOPS |
| FP8/FP6 Tensor Core<sup>2</sup> | 72 PFLOPS | 72 PFLOPS |
| INT8 Tensor Core<sup>2</sup> | 3 POPS | 72 POPS |
| FP16/BF16 Tensor Core<sup>2</sup> | 36 PFLOPS | 36 PFLOPS |
| TF32 Tensor Core<sup>2</sup> | 18 PFLOPS | 18 PFLOPS |
| FP32 | 600 TFLOPS | 600 TFLOPS |
| FP64/FP64 Tensor Core | 10 TFLOPS | 296 TFLOPS |
| Gesamtspeicher | 2.1 TB | 1.4 TB |
| NVIDIA NVLink | Fünfte Generation | Fünfte Generation |
| NVIDIA NVLink Switch™ | NVLink 5 Switch | NVLink 5 Switch |
| NVSwitch-Bandbreite für Verbindungen zwischen GPUs | 1.8 TB/s | 1.8 TB/s |
| Gesamte NVLink-Bandbreite | 14.4 TB/s | 14.4 TB/s |
| Networking Bandwidth | 1.6 TB/s | 0.8 TB/s |
| Attention Performance<sup>3</sup> | 2x | 1x |
1. Spezifikation in Sparse | Dense
2. Spezifikation in Sparse. Dense ist ½ Sparse dargestellt.
3. vs. NVIDIA Blackwell.
4. HGX B300 und HGX B200 werden jetzt geliefert.
Erfahren Sie mehr über die NVIDIA Vera-Rubin-Plattform.