NVIDIA HGX-Plattform

Beschleunigung von KI und High-Performance-Computing für jedes Rechenzentrum.

Überblick
NVIDIA Vera
Networking
Technische Daten

Überblick
NVIDIA Vera
Networking
Technische Daten

Überblick

Optimierung von KI und HPC für jedes Rechenzentrum

Die NVIDIA HGX-Plattform vereint die volle Leistungsfähigkeit von NVIDIA-GPUs, NVIDIA Vera-CPUs, NVIDIA NVLink™, NVIDIA-Netzwerktechnik und vollständig optimierten KI- und High-Performance-Computing-Software-Stacks (HPC), um höchstmögliche Anwendungsleistung und kürzeste Zeit für die Gewinnung von Erkenntnissen in jedem Rechenzentrum zu bieten.

Die NVIDIA HGX Rubin NVL8 integriert acht NVIDIA Rubin-GPUs mit Hochgeschwindigkeits-NVLink-Verbindungen der sechsten Generation und bietet 5,5-mal mehr NVFP4-FLOPS als HGX B200, um das Rechenzentrum in eine neue Ära des beschleunigten Computings und der generativen KI zu führen. NVIDIA HGX Rubin NVL8 kann entweder mit NVIDIA Vera-CPUs oder x86-basierten CPU-Baseboards kombiniert werden.

NVIDIA läutet mit Vera Rubin die nächste Generation der KI ein

Die Plattform der nächsten Generation skaliert die Mainstream-Einführung und senkt die Kosten pro Token mit fünf Durchbrüchen für Reasoning- und agentische KI-Modelle.

Pressemitteilung lesen

NVIDIA HGX H100- und HGX H200-Datenblatt

Entdecken Sie die Funktionen der NVIDIA HGX H100- und H200-Systeme. Dieses Datenblatt enthält detaillierte Informationen zu den Spezifikationen und der Leistung.

Datenblatt anzeigen

KI-Reasoning-Leistung und Vielseitigkeit

KI, komplexe Simulationen und riesige Datenmengen erfordern mehrere GPUs mit extrem schnellen Verbindungen und einem vollständig beschleunigten Softwarestack. Die NVIDIA HGX™-Plattform vereint die volle Leistung von NVIDIA GPUs, NVIDIA NVLink™, NVIDIA Netzwerktechnik und vollständig optimierten KI- und HPC-Softwarestacks (High-Performance-Computing), um die höchstmögliche Anwendungsleistung und schnellste Zeit zur Erkenntnisgewinnung für jedes Rechenzentrum bereitzustellen.

Unerreichte End-to-End-Plattform für beschleunigtes Computing

NVIDIA HGX B300 integriert NVIDIA Blackwell Ultra-GPUs mit Hochgeschwindigkeits-Verbindungen, um Rechenzentren in eine neue Ära des beschleunigten Computings und der generativen KI zu katapultieren. Als führende beschleunigte Scale-up-Plattform mit bis zu 11-mal mehr Inferenzleistung als die Vorgängergeneration wurden NVIDIA Blackwell-basierte HGX-Systeme für die anspruchsvollsten generativen KI-, Datenanalyse- und HPC-Workloads entwickelt.

NVIDIA HGX umfasst fortschrittliche Netzwerkoptionen mit Geschwindigkeiten von bis zu 800 Gigabit pro Sekunde (Gbit/s) und NVIDIA Quantum-X800 InfiniBand und Spectrum™-X Ethernet für erstklassige KI-Leistung. HGX enthält außerdem NVIDIA BlueField®-3 DPUs (Data Processing Units), um Cloud-Netzwerke, zusammensetzbaren Datenspeicher, Zero-Trust-Sicherheit und GPU-Computing-Elastizität in Hyperscale-KI-Clouds zu ermöglichen.

KI-Reasoning-Leistung und Vielseitigkeit

DeepSeek-R1 ISL = 32K, OSL = 8K, HGX B300 mit FP4 NVIDIA Dynamo Disaggregation. H100 mit FP8-In-Flight-Batching. Änderungen bei der Leistung vorbehalten.

Mehr Umsatz xx KI-Fabrikproduktion

Die Frontier-Kurve veranschaulicht die wichtigsten Parameter, die den Umsatz mit KI-Fabrik-Token bestimmen. Die vertikale Achse stellt den Durchsatz von GPU-Token pro Sekunde (TPS) in einer KI-Fabrik mit einer Leistung von einem Megawatt (MW) dar, während die horizontale Achse die Interaktivität und Reaktionsfähigkeit der Benutzer als TPS für einen einzelnen Benutzer quantifiziert. Durch das optimale Zusammenspiel von Durchsatz und Reaktionsfähigkeit ermöglicht HGX B300 eine 30-fache Gesamtsteigerung der KI-Fabrik-Ausgabeleistung im Vergleich zur NVIDIA Hopper™-Architektur für einen maximalen Token-Umsatz.

Skalierbares Training für große KI-Modelle

Trainingsleistung auf höchstem Niveau

Die HGX B300-Plattform bietet eine bis zu 2,6-fach höhere Trainingsleistung für große Sprachmodelle wie DeepSeek-R1. Mit über 2 TB Hochgeschwindigkeitsspeicher und einer NVLink-Switch-Bandbreite von 14,4 TB/s ermöglicht es Modelltraining im großen Maßstab und eine Hochdurchsatz-Kommunikation zwischen GPUs.

Die voraussichtliche Leistung kann Änderungen unterliegen. Perf pro GPU, FP8, 16K BS, 16K Sequenz-Länge.

NVIDIA Vera CPU

NVIDIA Vera wurde speziell für agentische KI-Systeme der nächsten Generation entwickelt und bietet die Leistungsfähigkeit für bestärkendes Lernen und agentische Workloads im Rechenzentrumsmaßstab. Speziell entwickelte CPU-Kerne, ein LPDDR5X-Speichersubsystem mit hoher Bandbreite und NVIDIA Scalable Coherency Fabric (SCF) unterstützen Softwareumgebungen neben beschleunigter Rechenleistung und sorgen für höhere Energieeffizienz, während gleichzeitig der Durchsatz der KI-Fabrik maximiert wird.

Mehr erfahren

Beschleunigung von HGX mit NVIDIA Networking

KI-Fabriken und Supercomputing-Zentren umfassen Tausende von GPUs als eine einzige verteilte Rechen-Engine. Damit Beschleuniger stets voll ausgelastet sind, erfordern KI- und wissenschaftliche Workloads deterministische Latenz, verlustfreien Durchsatz, stabile Iterationszeiten und die Möglichkeit, nicht nur innerhalb eines Rechenzentrums, sondern auch über mehrere Standorte hinweg zu skalieren.

NVIDIA-Netzwerke bieten das Full-Stack-Gewebe, das dies ermöglicht, indem sie NVIDIA NVLink Scale-up, NVIDIA Quantum InfiniBand und Spectrum-X™ Ethernet Scale-out, Spectrum-XGS Ethernet Multi-Rechenzentrum Scale-across, NVIDIA® BlueField® DPU und DOCA™ für Infrastrukturdienste sowie Plattformen der nächsten Generation der Silizium-Photonik kombinieren und so die anspruchsvollsten KI-Rechenzentren der Welt ermöglichen.

Technische Daten zu NVIDIA HGX

NVIDIA HGX ist als einzelnes Baseboard mit acht NVIDIA Rubin, NVIDIA Blackwell oder NVIDIA Blackwell Ultra SXMs verfügbar und kann mit einer NVIDIA Vera CPU oder einem x86-basierten Baseboard kombiniert werden. Diese leistungsstarken Kombinationen aus Hard- und Software bilden den Grundstein für eine beispiellose KI-Supercomputing-Leistung.

NVIDIA Rubin NVL8
NVIDIA Blackwell

	HGX Rubin NVL8*
Formfaktor	8x NVIDIA Rubin SXM
NVFP4 Inferenz	400 PFLOPS
NVFP4 Training<sup>1</sup>	280 PFLOPS
FP8/FP6 Training<sup>1</sup>	140 PF
INT8 Tensor Core<sup>1</sup>	2 PFLOPS
FP16/BF16 Tensor Core<sup>1</sup>	32 PFLOPS
TF32 Tensor Core<sup>1</sup>	16 PFLOPS
FP32	1040 TFLOPS
FP64/FP64 Tensor Core	264 TFLOPS
FP32 SGEMM \| FP64 DGEMM<sup>2</sup>	3200 TF \| 1600 TF
Gesamtspeicher	2.3 TB
NVIDIA NVLink	Sixth generation
NVIDIA NVLink Switch	NVLink 6 Switch
NVLink-Bandbreite (GPU zu GPU)	3.6 TB/s
NVLink-Switch-Bandbreite insgesamt	28.8 TB/s
Netzwerkbandbreite	1.6 TB/s

* Vorläufige Spezifikation, Änderungen vorbehalten.
1. Spezifikation in Dense.
2. Spitzenleistung mit auf Tensor-Core basierenden Emulationsalgorithmen.

	HGX Rubin NVL8
Form Factor	8x NVIDIA Rubin SXM
FP4 Tensor Core<sup>1</sup>	400 PFLOPS \| 144 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup>	272 PFLOPS
INT8 Tensor Core<sup>2</sup>	4 PFLOPS
FP16/BF16 Tensor Core<sup>2</sup>	64 PFLOPS
TF32 Tensor Core<sup>2</sup>	32 PFLOPS
FP32	1040 TFLOPS
FP64/FP64 Tensor Core	264 TFLOPS
Total Memory	2.3 TB
NVIDIA NVLink	Sixth generation
NVIDIA NVLink Switch™	NVLink 6 Switch
NVLink GPU-to-GPU Bandwidth	3.6 TB/s
Total NVLink Bandwidth	28.8 TB/s
Networking Bandwidth	1.6 TB/s
Attention Performance<sup>3</sup>	<awaiting results>2x

	HGX B300<sup>4</sup>	HGX B200<sup>4</sup>
Formfaktor	8x NVIDIA Blackwell Ultra SXM	8x NVIDIA Blackwell SXM
FP4 Tensor Core<sup>1</sup>	144 PFLOPS \| 108 PFLOPS	144 PFLOPS \| 72 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup>	72 PFLOPS	72 PFLOPS
INT8 Tensor Core<sup>2</sup>	3 POPS	72 POPS
FP16/BF16 Tensor Core<sup>2</sup>	36 PFLOPS	36 PFLOPS
TF32 Tensor Core<sup>2</sup>	18 PFLOPS	18 PFLOPS
FP32	600 TFLOPS	600 TFLOPS
FP64/FP64 Tensor Core	10 TFLOPS	296 TFLOPS
Gesamtspeicher	2.1 TB	1.4 TB
NVIDIA NVLink	Fünfte Generation	Fünfte Generation
NVIDIA NVLink Switch™	NVLink 5 Switch	NVLink 5 Switch
NVSwitch-Bandbreite für Verbindungen zwischen GPUs	1.8 TB/s	1.8 TB/s
Gesamte NVLink-Bandbreite	14.4 TB/s	14.4 TB/s
Networking Bandwidth	1.6 TB/s	0.8 TB/s
Attention Performance<sup>3</sup>	2x	1x

1. Spezifikation in Sparse | Dense
2. Spezifikation in Sparse. Dense ist ½ Sparse dargestellt.
3. vs. NVIDIA Blackwell.
4. HGX B300 und HGX B200 werden jetzt geliefert.

	HGX B300	HGX B200
Form Factor	8x NVIDIA Blackwell Ultra SXM	8x NVIDIA Blackwell SXM
FP4 Tensor Core<sup>1</sup>	144 PFLOPS \| 108 PFLOPS	144 PFLOPS \| 72 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup>	72 PFLOPS	72 PFLOPS
INT8 Tensor Core<sup>2</sup>	3 POPS	72 POPS
FP16/BF16 Tensor Core<sup>2</sup>	36 PFLOPS	36 PFLOPS
TF32 Tensor Core<sup>2</sup>	18 PFLOPS	18 PFLOPS
FP32	600 TFLOPS	600 TFLOPS
FP64/FP64 Tensor Core	10 TFLOPS	296 TFLOPS
Total Memory	2.1 TB	1.4 TB
NVIDIA NVLink	Fifth generation	Fifth generation
NVIDIA NVLink Switch™	NVLink 5 Switch	NVLink 5 Switch
NVLink GPU-to-GPU Bandwidth	1.8 TB/s	1.8 TB/s
Total NVLink Bandwidth	14.4 TB/s	14.4 TB/s
Networking Bandwidth	1.6 TB/s	0.8 TB/s
Attention Performance<sup>3</sup>	2x	1x

Lesen Sie das NVIDIA Blackwell Ultra-Datenblatt

Lesen Sie das Datenblatt zu NVIDIA Blackwell

Erfahren Sie mehr über die NVIDIA Vera-Rubin-Plattform.

Mehr erfahren