NVIDIA HGX-Plattform

Beschleunigung von KI und High-Performance-Computing für jedes Rechenzentrum.

Überblick

Optimierung von KI und HPC für jedes Rechenzentrum

Die NVIDIA HGX™-Plattform vereint die volle Leistung von NVIDIA GPUs, NVIDIA NVLink™, NVIDIA Netzwerktechnik und vollständig optimierten KI- und HPC-Softwarestacks (High-Performance-Computing), um die höchstmögliche Anwendungsleistung und schnellste Zeit zur Erkenntnisgewinnung für jedes Rechenzentrum bereitzustellen.

Der NVIDIA HGX Rubin NVL8 integriert acht NVIDIA Rubin-GPUs mit Hochgeschwindigkeits-NVLink-Verbindungen der sechsten Generation und bietet 5,5-mal mehr NVFP4 FLOPS als HGX B200, um das Rechenzentrum in eine neue Ära des beschleunigten Computings und der generativen KI zu führen.

NVIDIA startet mit Rubin die nächste Generation der KI – sechs neue Chips, ein unglaubliches Supercomputer

Die Plattform der nächsten Generation skaliert die Mainstream-Einführung und senkt die Kosten pro Token mit fünf Durchbrüchen für Schlussfolgerungs- und agentische KI-Modelle.

NVIDIA HGX H100- und HGX H200-Datenblatt

Entdecken Sie die Funktionen der NVIDIA HGX H100- und H200-Systeme. Dieses Datenblatt enthält detaillierte Informationen zu den Spezifikationen und der Leistung.

KI-Reasoning-Leistung und Vielseitigkeit

KI, komplexe Simulationen und riesige Datenmengen erfordern mehrere GPUs mit extrem schnellen Verbindungen und einem vollständig beschleunigten Softwarestack. Die NVIDIA HGX™-Plattform vereint die volle Leistung von NVIDIA GPUs, NVIDIA NVLink™, NVIDIA Netzwerktechnik und vollständig optimierten KI- und HPC-Softwarestacks (High-Performance-Computing), um die höchstmögliche Anwendungsleistung und schnellste Zeit zur Erkenntnisgewinnung für jedes Rechenzentrum bereitzustellen.

Unerreichte End-to-End-Plattform für beschleunigtes Computing

NVIDIA HGX B300 integriert NVIDIA Blackwell Ultra-GPUs mit Hochgeschwindigkeits-Verbindungen, um Rechenzentren in eine neue Ära des beschleunigten Computings und der generativen KI zu katapultieren. Als führende beschleunigte Scale-up-Plattform mit bis zu 11-mal mehr Inferenzleistung als die Vorgängergeneration wurden NVIDIA Blackwell-basierte HGX-Systeme für die anspruchsvollsten generativen KI-, Datenanalyse- und HPC-Workloads entwickelt.

NVIDIA HGX umfasst fortschrittliche Netzwerkoptionen mit Geschwindigkeiten von bis zu 800 Gigabit pro Sekunde (Gbit/s) und NVIDIA Quantum-X800 InfiniBand und Spectrum™-X Ethernet für erstklassige KI-Leistung. HGX enthält außerdem NVIDIA BlueField®-3 DPUs (Data Processing Units), um Cloud-Netzwerke, zusammensetzbaren Datenspeicher, Zero-Trust-Sicherheit und GPU-Computing-Elastizität in Hyperscale-KI-Clouds zu ermöglichen. 

KI-Reasoning-Leistung und Vielseitigkeit

DeepSeek-R1 ISL = 32K, OSL = 8K, HGX B300 mit FP4 NVIDIA Dynamo Disaggregation. H100 mit FP8-In-Flight-Batching. Änderungen bei der Leistung vorbehalten.

Mehr Umsatz xx KI-Fabrikproduktion

Die Frontier-Kurve veranschaulicht die wichtigsten Parameter, die den Umsatz mit KI-Fabrik-Token bestimmen. Die vertikale Achse stellt den Durchsatz von GPU-Token pro Sekunde (TPS) in einer KI-Fabrik mit einer Leistung von einem Megawatt (MW) dar, während die horizontale Achse die Interaktivität und Reaktionsfähigkeit der Benutzer als TPS für einen einzelnen Benutzer quantifiziert. Durch das optimale Zusammenspiel von Durchsatz und Reaktionsfähigkeit ermöglicht HGX B300 eine 30-fache Gesamtsteigerung der KI-Fabrik-Ausgabeleistung im Vergleich zur NVIDIA Hopper™-Architektur für einen maximalen Token-Umsatz.

Skalierbares Training für große KI-Modelle

Trainingsleistung auf höchstem Niveau

Die HGX B300-Plattform bietet eine bis zu 2,6-fach höhere Trainingsleistung für große Sprachmodelle wie DeepSeek-R1. Mit über 2 TB Hochgeschwindigkeitsspeicher und einer NVLink-Switch-Bandbreite von 14,4 TB/s ermöglicht es Modelltraining im großen Maßstab und eine Hochdurchsatz-Kommunikation zwischen GPUs.

Die voraussichtliche Leistung kann Änderungen unterliegen. Perf pro GPU, FP8, 16K BS, 16K Sequenz-Länge.

Beschleunigung von HGX mit NVIDIA Networking

KI-Fabriken und Supercomputing-Zentren umfassen Tausende von GPUs als eine einzige verteilte Rechen-Engine. Damit Beschleuniger stets voll ausgelastet sind, erfordern KI- und wissenschaftliche Workloads deterministische Latenz, verlustfreien Durchsatz, stabile Iterationszeiten und die Möglichkeit, nicht nur innerhalb eines Rechenzentrums, sondern auch über mehrere Standorte hinweg zu skalieren.

NVIDIA-Netzwerke bieten das Full-Stack-Gewebe, das dies ermöglicht, indem sie NVIDIA NVLink Scale-up, NVIDIA Quantum InfiniBand und Spectrum-X™ Ethernet Scale-out, Spectrum-XGS Ethernet Multi-Rechenzentrum Scale-across, NVIDIA® BlueField® DPU und DOCA™ für Infrastrukturdienste sowie Plattformen der nächsten Generation der Silizium-Photonik kombinieren und so die anspruchsvollsten KI-Rechenzentren der Welt ermöglichen.

Technische Daten zu NVIDIA HGX

NVIDIA HGX ist in einem einzigen Baseboard mit acht NVIDIA Rubin-, NVIDIA Blackwell- oder NVIDIA Blackwell Ultra SXMs erhältlich. Diese leistungsstarken Kombinationen aus Hard- und Software bilden den Grundstein für eine beispiellose KI-Supercomputing-Leistung.

HGX Rubin NVL8*
Formfaktor 8x NVIDIA Rubin SXM
NVFP4 Inferenz 400 PFLOPS
NVFP4 Training 280 PFLOPS
FP8/FP6 Training 140 PF
INT8 Tensor Core<sup>1</sup> 2 PFLOPS
FP16/BF16 Tensor Core<sup>1</sup> 32 PFLOPS
TF32 Tensor Core<sup>1</sup> 16 PFLOPS
FP32 1040 TFLOPS
FP64/FP64 Tensor Core 264 TFLOPS
FP32 SGEMM | FP64 DGEMMCore<sup>2</sup> 3200 TF | 1600 TF
Gesamtspeicher 2.3 TB
NVIDIA NVLink Sixth generation
NVIDIA NVLink Switch NVLink 6 Switch
NVLink-Bandbreite (GPU zu GPU) 3.6 TB/s
NVLink-Switch-Bandbreite insgesamt 28.8 TB/s
Netzwerkbandbreite 1.6 TB/s

* Vorläufige Spezifikation, Änderungen vorbehalten.
1.  Spezifikation in Dense.
2.  Spitzenleistung mit auf Tensor-Core basierenden Emulationsalgorithmen.

HGX Rubin NVL8
Form Factor 8x NVIDIA Rubin SXM
FP4 Tensor Core<sup>1</sup> 400 PFLOPS | 144 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 272 PFLOPS
INT8 Tensor Core<sup>2</sup> 4 PFLOPS
FP16/BF16 Tensor Core<sup>2</sup> 64 PFLOPS
TF32 Tensor Core<sup>2</sup> 32 PFLOPS
FP32 1040 TFLOPS
FP64/FP64 Tensor Core 264 TFLOPS
Total Memory 2.3 TB
NVIDIA NVLink Sixth generation
NVIDIA NVLink Switch™ NVLink 6 Switch
NVLink GPU-to-GPU Bandwidth 3.6 TB/s
Total NVLink Bandwidth 28.8 TB/s
Networking Bandwidth 1.6 TB/s
Attention Performance<sup>3</sup> <awaiting results>2x
HGX B300 HGX B200
Formfaktor 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor Core<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor Core<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor Core<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor Core<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor Core 10 TFLOPS 296 TFLOPS
Gesamtspeicher 2.1 TB 1.4 TB
NVIDIA NVLink Fünfte Generation Fünfte Generation
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVSwitch-Bandbreite für Verbindungen zwischen GPUs 1.8 TB/s 1.8 TB/s
Gesamte NVLink-Bandbreite 14.4 TB/s 14.4 TB/s
Networking Bandwidth 1.6 TB/s 0.8 TB/s
Attention Performance<sup>3</sup> 2x 1x

1. Spezifikation in Sparse | Dense
2. Spezifikation in Sparse. Dense ist ½ Sparse dargestellt.
3. vs. NVIDIA Blackwell.

HGX B300 HGX B200
Form Factor 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor Core<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor Core<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor Core<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor Core<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor Core 10 TFLOPS 296 TFLOPS
Total Memory 2.1 TB 1.4 TB
NVIDIA NVLink Fifth generation Fifth generation
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU-to-GPU Bandwidth 1.8 TB/s 1.8 TB/s
Total NVLink Bandwidth 14.4 TB/s 14.4 TB/s
Networking Bandwidth 1.6 TB/s 0.8 TB/s
Attention Performance<sup>3</sup> 2x 1x

Erfahren Sie mehr über die NVIDIA Rubin Plattform.