NVIDIA HGX-Plattform

Beschleunigung von KI und High-Performance-Computing für jedes Rechenzentrum.

Überblick

Optimierung von KI und HPC für jedes Rechenzentrum

Die NVIDIA HGX-Plattform vereint die volle Leistungsfähigkeit von NVIDIA-GPUs, NVIDIA Vera-CPUs, NVIDIA NVLink™, NVIDIA-Netzwerktechnik und vollständig optimierten KI- und High-Performance-Computing-Software-Stacks (HPC), um höchstmögliche Anwendungsleistung und kürzeste Zeit für die Gewinnung von Erkenntnissen in jedem Rechenzentrum zu bieten.

Der NVIDIA HGX Rubin NVL8 integriert acht NVIDIA Rubin-GPUs mit Hochgeschwindigkeits-NVLink-Verbindungen der sechsten Generation und bietet bis zu 10-mal mehr Token-Factory-Durchsatz im Vergleich zu HGX B200 und erreicht die gleiche Trainingsleistung mit 4-mal weniger GPUs. NVIDIA Rubin-basierte HGX-Systeme sind für die anspruchsvollsten Workloads in den Bereichen agentische KI, Datenanalytik und HPC entwickelt. NVIDIA HGX Rubin NVL8 kann entweder mit NVIDIA Vera-CPUs – konfiguriert als HGX Vera Rubin NVL8 – oder mit x86-basierten CPU-Baseboards kombiniert werden.

NVIDIA Vera Rubin läuft in die volle Produktion an, um Fabriken für agentische KI weltweit zu unterstützen

NVIDIA Vera Rubin geht derzeit in die volle Produktion über: Taiwans führende Serverhersteller und globale Marktführer in der Lieferkette fertigen und liefern Vera-Rubin-basierte Systeme in großem Maßstab und unterstützen damit KI-Labore, Cloud-Anbieter und Hyperscaler dabei, die Intelligenz von morgen zu entwickeln.

Beschleunigung der nächsten Generation der agentischen KI

Steigern Sie den Durchsatz der Token Factory mit HGX Rubin NVL8

Die Bereitstellung von agentischen KI- und Reasoning-Modellen in großem Maßstab erfordert einen extremen Inferenzdurchsatz. Mit architektonischen Innovationen wie 400 PFLOPS NVFP4-Rechenleistung, 3-mal mehr Speicherbandbreite mit 176 TB/s und 2-mal mehr NVLink-Switch-Bandbreite mit 28,8 TB/s für Kommunikation mit hohem Durchsatz zwischen GPUs bietet HGX Rubin NVL8 einen 10-mal höheren Token Factory-Durchsatz im Vergleich zu HGX B200. Dieser Leistungssprung ermöglicht es KI-Fabriken, mehr Benutzer zu bedienen, den Token-Umsatz zu maximieren und die Kosten pro Token zu senken.

Die voraussichtliche Leistung kann Änderungen unterliegen. Kimi K2-Thinking-Modell mit FTL<=500ms, ISL = 4K, OSL = 4K. HGX Rubin NVL8 mit Sparse NVFP4, HGX B200 mit Dense NVFP4

Die voraussichtliche Leistung kann Änderungen unterliegen. Anzahl der GPUs auf Basis von DeepSeek-R1, die auf 15T-Token mit 4K-Sequenzlänge vortrainiert wurden.

KI-Modelle der nächsten Generation mit 4-mal weniger GPUs trainieren

HGX Rubin NVL8 bietet bahnbrechendes Mixture-of-Experts-Pre-Training für den 8-GPU-Server-Formfaktor und trainiert agentische KI-Modelle der nächsten Generation mit 4-mal weniger GPUs, ermöglicht durch architektonische Innovationen, darunter 4-mal mehr NVFP4-Trainings-FLOPS, 1,6-mal mehr Hochgeschwindigkeits-HBM-Speicherkapazität und 2-mal mehr Bandbreite von NVLink im Vergleich zu HGX B200. Dieser Sprung in der Trainingseffizienz ermöglicht es Unternehmen, mehr Modelle mit demselben Infrastruktur-Fußabdruck zu trainieren, die Kosten für die Modellentwicklung zu senken und die Rendite von Investitionen in die KI-Infrastruktur zu maximieren.

NVIDIA Vera CPU

NVIDIA Vera CPU

NVIDIA Vera ist die CPU für das Zeitalter der KI – speziell für agentische KI, bestärkendes Lernen und Datenverarbeitung in großem Maßstab entwickelt. NVIDIA Olympus-Kerne, LPDDR5X-Speicher mit hoher Bandbreite und NVIDIA Scalable Coherency Fabric bieten eine schnelle, effiziente CPU-Ausführung neben beschleunigter Rechenleistung und helfen KI-Fabriken, mehr Agenten, Bewertungen und Datenpipelines auszuführen. 

Beschleunigung von HGX mit NVIDIA Networking

KI-Fabriken und Supercomputing-Zentren umfassen Tausende von GPUs als eine einzige verteilte Rechen-Engine. Damit Beschleuniger stets voll ausgelastet sind, erfordern KI- und wissenschaftliche Workloads deterministische Latenz, verlustfreien Durchsatz, stabile Iterationszeiten und die Möglichkeit, nicht nur innerhalb eines Rechenzentrums, sondern auch über mehrere Standorte hinweg zu skalieren.

NVIDIA-Netzwerke bieten das Full-Stack-Gewebe, das dies ermöglicht, indem sie NVIDIA NVLink Scale-up, NVIDIA Quantum InfiniBand und Spectrum-X™ Ethernet Scale-out, Spectrum-XGS Ethernet Multi-Rechenzentrum Scale-across, NVIDIA® BlueField® DPU und DOCA™ für Infrastrukturdienste sowie Plattformen der nächsten Generation der Silizium-Photonik kombinieren und so die anspruchsvollsten KI-Rechenzentren der Welt ermöglichen.

Technische Daten zu NVIDIA HGX

NVIDIA HGX ist in einem einzigen Baseboard mit acht NVIDIA Rubin-, NVIDIA Blackwell- oder NVIDIA Blackwell Ultra SXMs erhältlich. Rubin-GPUs können mit einer NVIDIA Vera CPU oder einem x86-basierten Baseboard kombiniert werden. Diese leistungsstarken Kombinationen aus Hardware und Software legen den Grundstein für eine beispiellose KI- und Supercomputing-Leistung.

Systemspezifikationen NVIDIA HGX Vera Rubin NVL8<sup>1</sup> NVIDIA HGX Rubin NVL8<sup>1</sup>
Konfiguration 8x NVIDIA Rubin SXM mit Single-Socket Vera CPU 8x NVIDIA Rubin SXM
CPU | Anzahl der Kerne NVIDIA Vera CPU | 88 benutzerdefinierte NVIDIA Olympus-Kerne (Arm®-kompatibel) mit Spatial Multi-Threading (SMT) x86 CPU<sup>4</sup>
CPU-Speicher | Bandbreite 1,5 TB LPDDR5X | 1,2 TB/s x86 CPU<sup>4</sup>
NVFP4 Inferenz 400 PFLOPS
NVFP4-Training<sup>2</sup> 280 PFLOPS
FP8/FP6-Training<sup>2</sup> 140 PFLOPS
INT8<sup>2</sup> 2 POPS
FP16/BF16<sup>2</sup> 32 PFLOPS
TF32<sup>2</sup> 16 PFLOPS
FP32 1,040 TFLOPS
FP64 265 TFLOPS
FP32 SGEMM<sup>3</sup> 3,200 TFLOPS
FP64 DGEMM<sup>3</sup> 1,600 TFLOPS
GPU-Speicher | Bandbreite 2,3 TB HBM4 | 176 TB/s
NVLink-Switch-Bandbreite 28,8 TB/s
NVIDIA NVLink Sechste Generation
Netzwerkbandbreite 1,6 TB/s
Individuelle GPU-Spezifikationen NVIDIA Rubin GPU<sup>1</sup>
NVFP4 Inferenz 50 PFLOPS
VNVFP4-Schulung<sup>2</sup> 35 PFLOPS
FP8/FP6-Training<sup>2</sup> 17.5 PFLOPS
INT8<sup>2</sup> 250 TOPS
FP16/BF16<sup>2</sup> 4 PFLOPS
TF3<sup>2</sup> 2 PFLOPS
FP3<sup>1</sup> 130 TFLOPS
FP64 33 TFLOPS
FP3SGEMM<sup>3</sup> 400 TFLOPS
FP64 DGEMM<sup>3</sup> 200 TFLOPS
Bandbreite von NVLink 3,6 TB/s
NVIDIA NVLink Sechste Generation
GPU-Speicher | Bandbreite 288 GB HBM4 | 22 TB/s

1. Vorläufige Informationen. Alle Werte sind bis zu den angegebenen Grenzen gültig und können sich ändern. Die NVFP4-Inferenzspezifikation ist spärlich.
2. Dichte Spezifikation.
3. Spitzenleistung mit Tensor Core-basierten Emulationsalgorithmen.
4. CPU- und Speicherspezifikationen werden durch OEM-Angebote definiert.

HGX B300<sup>4</sup> HGX B200<sup>4</sup>
Formfaktor 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor Core<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor Core<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor Core<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor Core<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor Core 10 TFLOPS 296 TFLOPS
Gesamtspeicher 2.1 TB 1.4 TB
NVIDIA NVLink Fünfte Generation Fünfte Generation
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVSwitch-Bandbreite für Verbindungen zwischen GPUs 1.8 TB/s 1.8 TB/s
Gesamte NVLink-Bandbreite 14.4 TB/s 14.4 TB/s
Networking Bandwidth 1.6 TB/s 0.8 TB/s
Attention Performance<sup>3</sup> 2x 1x

1. Spezifikation in Sparse | Dense
2. Spezifikation in Sparse. Dense ist ½ Sparse dargestellt.
3. vs. NVIDIA Blackwell.
4. HGX B300 und HGX B200 werden jetzt geliefert.

HGX B300 HGX B200
Form Factor 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor Core<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor Core<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor Core<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor Core<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor Core 10 TFLOPS 296 TFLOPS
Total Memory 2.1 TB 1.4 TB
NVIDIA NVLink Fifth generation Fifth generation
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU-to-GPU Bandwidth 1.8 TB/s 1.8 TB/s
Total NVLink Bandwidth 14.4 TB/s 14.4 TB/s
Networking Bandwidth 1.6 TB/s 0.8 TB/s
Attention Performance<sup>3</sup> 2x 1x

Erfahren Sie mehr über die NVIDIA Vera-Rubin-Plattform.