NVIDIA HGX-KI-Supercomputer

Die weltweit führende KI-Computing-Plattform.

Katalog der geeigneten Systeme durchsuchen

Einführung
Plattform
Inferenz
Schulung
Vernetzung
Technische Daten

Einführung
Plattform
Inferenz
Schulung
Vernetzung
Technische Daten

Speziell entwickelt für KI und HPC

KI, komplexe Simulationen und massive Datensätze erfordern mehrere Grafikprozessoren mit extrem schnellen Verbindungen und einem vollständig beschleunigten Softwarestack. Die KI-Supercomputing-Plattform NVIDIA HGX™ vereint die volle Leistung von NVIDIA Grafikprozessoren, NVLink®, NVIDIA-Netzwerken und vollständig optimiertem KI- und High-Performance-Computing (HPC) Software-Stacks, um die höchste Anwendungsleistung bereitzustellen und die Zeit zum Erhalt von Einblicken so weit wie möglich zu verkürzen.

Unerreichte End-to-End-Plattform für beschleunigtes Computing

Die NVIDIA HGX B200 und HGX B100 integrieren NVIDIA Blackwell Tensor-Core-Grafikprozessoren mit High-Speed-Verbindungen und führen das Rechenzentrum so in ein neues Zeitalter des beschleunigten Computings und der generativen KI. Blackwell-basierte HGX-Systeme sind eine führende beschleunigte Scale-up-Plattform mit bis zu 15-mal mehr Inferenzleistung als die Vorgängergeneration. Sie sind auf die anspruchsvollsten generativen KI-, Datenanalyse- und HPC-Workloads ausgelegt.

NVIDIA HGX umfasst fortschrittliche Netzwerkoptionen mit Geschwindigkeiten von bis zu 400 Gigabit pro Sekunde (Gb/s) und nutzen NVIDIA Quantum-2 InfiniBand und Spectrum™-X Ethernet für höchste KI-Leistung. HGX umfasst außerdem NVIDIA® BlueField®-3-Datenverarbeitungseinheiten (DPUs), die Cloud-Networking, Composable Storage, Zero-Trust-Security und Grafikprozessor-Computing-Elastizität in Hyperscale-KI-Clouds ermöglichen.

Deep-Learning-Inferenz: Leistung und Vielseitigkeit

Die projizierte Leistung kann Änderungen unterliegen. Token-to-Token-Latenz (TTL) = 50 Millisekunden (ms) in Echtzeit, erste Token-Latenz (FTL) = 5 s, Eingabesequenzlänge = 32.768, Ausgabesequenzlänge = 1.028, 8x Acht-Wege-NVIDIA HGX™ H100 Grafikprozessoren mit Luftkühlung vs. 1x Acht-Wege-HGX B200 mit Luftkühlung, laut Grafikprozessor-Leistungsvergleich.

Echtzeit-Inferenz für die nächste Generation großer Sprachmodelle

HGX B200 erzielt bei massiven Modellen wie dem GPT-MoE-1.8T eine bis zu 15-mal höhere Inferenzleistung als die vorherige Generation von NVIDIA Hopper™. Die Transformer-Engine der zweiten Generation verwendet individuelle Blackwell Tensor Core-Technologie in Kombination mit TensorRT™-LLM und Nemo™ Framework-Innovationen zur Beschleunigung der Inferenz für große Sprachmodelle (LLMs) und Mixture-of-Experts(MoE)-Modelle.

Deep-Learning-Training: Leistung und Skalierbarkeit

Änderungen der prognostizierten Leistung vorbehalten. Leistung von 32.768 GPUs, 4.096 Acht-Wege-HGX H100-Cluster mit Luftkühlung: 400G Infiniband-Netzwerk (IB), 4.096 Acht-Wege-HGX B200-Cluster mit Luftkühlung: 400G IB-Netzwerk.

Trainingsleistung auf höchstem Niveau

Die Transformer Engine der zweiten Generation mit 8-Bit-Gleitkomma (FP8) und neuen Precisions ermöglicht bemerkenswerterweise ein 3-mal schnelleres Training für große Sprachmodelle wie GPT-MoE-1.8T. Dieser Durchbruch wird durch NVLink der fünften Generation mit 1,8 Terabyte pro Sekunde (TB/s) GPU-zu-GPU-Verbindung, InfiniBand-Netzwerke und NVIDIA Magnum IO™ -Software unterstützt. Zusammen sorgen diese für effiziente Skalierbarkeit für Unternehmen und umfangreiche GPU-Computing-Cluster.

Beschleunigung von HGX mit NVIDIA Networking

Das Rechenzentrum ist die Recheneinheit der Zukunft und Netzwerke spielen eine wesentliche Rolle bei der Skalierung der Anwendungsleistung im gesamten Rechenzentrum. In Kombination mit NVIDIA Quantum InfiniBand bietet HGX erstklassige Leistung und Effizienz, die die volle Auslastung der Computing-Ressourcen sicherstellen.

Für KI-Cloud-Rechenzentren, die Ethernet bereitstellen, wird HGX am besten mit der NVIDIA Spectrum-X-Netzwerkplattform verwendet, die die höchste KI-Leistung über Ethernet ermöglicht. Mit NVIDIA Spectrum™-Switches und BlueField-3-DPUs liefert es konsistente, vorhersehbare Ergebnisse für Tausende gleichzeitige KI-Aufgaben in jeder Größenordnung durch optimale Ressourcenauslastung und Leistungsisolierung. Spectrum-X ermöglicht außerdem fortschrittliche Cloud-Mandantenfähigkeit und Zero-Trust-Sicherheit. Als Referenzdesign hat NVIDIA Israel-1 entwickelt, einen Hyperscale-Supercomputer für generative KI mit Dell PowerEdge XE9680-Servern, basierend auf der NVIDIA HGX-Plattform mit acht GPUs, BlueField-3-DPUsund Spectrum-X-Switches.

HGX mit NVIDIA Networking verbinden

	NVIDIA Quantum-2 InfiniBand-Plattform: Quantum-2-Switch, ConnectX-7-Adapter, BlueField-3-DPU	NVIDIA Spectrum-X Platform: Spectrum-4 Switch, BlueField-3 SuperNIC	NVIDIA Spectrum Ethernet Platform: Spectrum Switch, ConnectX Adapter, BlueField DPU
Deep Learning-Training	Optimal	Sehr gut	Gut
Wissenschaftliche Simulation	Optimal	Sehr gut	Gut
Datenanalysen	Optimal	Sehr gut	Gut
Inferenz für Deep Learning	Optimal	Sehr gut	Gut

Technische Daten zu NVIDIA HGX

NVIDIA HGX ist in einzelnen Hauptplatinen mit vier oder acht H200- oder H100-Grafikprozessoren oder acht Blackwell-Grafikprozessoren erhältlich. Diese leistungsstarken Kombinationen aus Hard- und Software legen den Grundstein für die neuartige KI-Supercomputing-Leistung.

Blackwell
Hopper

	HGX B200	HGX B100
GPUs	HGX B200 8-GPU	HGX B100 8-GPU
Formfaktor	8x NVIDIA B200 SXM	8x NVIDIA B100 SXM
FP4 Tensor-Core	144 PFLOPS	112 PFLOPS
FP8/FP6 Tensor-Core	72 PFLOPS	56 PFLOPS
INT8 Tensor Core	72 POPS	56 POPS
FP16/BF16 Tensor-Core	36 PFLOPS	28 PFLOPS
TF32 Tensor Core	18 PFLOPS	14 PFLOPS
FP32	640 TFLOPS	480 TFLOPS
FP64	320 TFLOPS	240 TFLOPS
FP64 Tensor-Core	320 TFLOPS	240 TFLOPS
Arbeitsspeicher	Bis zu 1,5 TB	Bis zu 1,5 TB
NVIDIA NVLink	Fünfte Generation	Fünfte Generation
NVIDIA NVSwitch™	Vierte Generation	Vierte Generation
NVSwitch-Bandbreite für Verbindungen zwischen GPUs	1,8 TB/s	1,8 TB/s
Gesamte aggregierte Bandbreite	14,4 TB/s	14,4 TB/s

	* HGX H200
	4-GPU	8-GPU
GPUs	HGX H200 4-GPU	HGX H200 8-GPU
Formfaktor	4x NVIDIA H200 SXM	8x NVIDIA H200 SXM
FP8/FP6 Tensor-Core	16 PFLOPS	32 PFLOPS
INT8 Tensor-Core	16 POPS	32 POPS
FP16/BFLOAT16 Tensor-Core	8 PFLOPS	16 PFLOPS
TF32 Tensor-Core	4 PFLOPS	8 PFLOPS
FP32	270 TFLOPS	540 TFLOPS
FP64	140 TFLOPS	270 TFLOPS
FP64 Tensor Core	270 TFLOPS	540 TFLOPS
Arbeitsspeicher	Bis zu 564 GB	Bis zu 1,1 TB
NVLink	Vierte Generation	Vierte Generation
NVSwitch	k. A.	Dritte Generation
NVSwitch-Bandbreite für Verbindungen zwischen GPUs	k. A.	900GB/s
Gesamte aggregierte Bandbreite	3,6 TB/s	7,2 TB/s

	* HGX H100
	4-GPU	8-GPU
GPUs	HGX H100 4-GPU	HGX H100 8-GPU
Formfaktor	4x NVIDIA H100 SXM	8x NVIDIA H100 SXM
HPC and AI compute (FP64/TF32/FP16/FP8/INT8)*	268TF/4PF/8PF/16PF/16 POPS	535TF/8PF/16PF/32PF/32 POPS
FP8/FP6 Tensor Core	16 PFLOPS	32 PFLOPS
INT8 Tensor Core	16 POPS	32 POPS
FP16/BFLOAT16 Tensor Core	8 PFLOPS	16 PFLOPS
TF32 Tensor Core	4 PFLOPS	8 PFLOPS
FP32	270 TFLOPS	540 TFLOPS
FP64	140 TFLOPS	270 TFLOPS
FP64 Tensor-Core	270 TFLOPS	540 TFLOPS
Arbeitsspeicher	Bis zu 320 GB	Bis zu 640 GB
NVLink	Vierte Generation	Vierte Generation
NVSwitch	N/A	Third generation
NVLink Switch	k. A	k. A
NVSwitch-Bandbreite für Verbindungen zwischen GPUs	k. A	900GB/s
Gesamte aggregierte Bandbreite	3,6 TB/s	7,2 TB/s

* Mit geringer Dichte

NVIDIA HGX H100-Datenblatt lesen

Erfahren Sie mehr über die NVIDIA H200-Tensor-Core-GPU.

Mehr erfahren