NVIDIA HGX 平台

為每個資料中心大幅提升 AI 與高效能運算。

概覽
網路
規格

概覽
網路
規格

概覽

為每個資料中心強化 AI 與高效能運算

NVIDIA HGX™ 平台整合 NVIDIA GPU、NVIDIA NVLink™、NVIDIA 網路的完整實力，以及全面最佳化的 AI 與高效能運算 (HPC) 軟體堆疊，提供最高的應用程式效能，並以最快的速度為每個資料中心提供深入解析。

NVIDIA HGX Rubin NVL8 整合 8 顆 NVIDIA Rubin GPU 與第六代高速 NVLink 互連技術，提供比 HGX B200 高 4 倍的密集 NVFP4 Tensor 核心 FLOPS，帶動資料中心進入加速運算與生成式 AI 的新時代。採用 NVIDIA Rubin 的 HGX 系統是頂尖的加速擴展平台，AI 工廠輸出量比前一代高 xxxx 倍，專為最嚴苛的生成式 AI、資料分析與高效能運算工作負載而設計。

NVIDIA以Rubin開啟新一代AI：六款全新晶片、一部出色的AI超級電腦

新一代平台擴大了主流運用，透過五項突破性技術，提升推理與代理型 AI 效率，降低每個詞元（token）的成本。

閱讀新聞稿

AI 推理效能與多功能性

AI、複雜的模擬與大規模資料集，必須以多顆 GPU 搭配超高速互連技術，以及完整加速的軟體堆疊。NVIDIA HGX™ 平台整合 NVIDIA GPU、NVIDIA NVLink™ 與 NVIDIA 網路的完整實力，以及全面最佳化的 AI 與高效能運算 (HPC) 軟體堆疊，提供最高的應用程式效能，並以最快的速度為各個資料中心提供深入解析。

無與倫比的端到端加速運算平台

NVIDIA HGX B300 將 NVIDIA Blackwell Ultra GPU 與高速互連技術整合，推動資料中心進入加速運算與生成式 AI 的新時代。NVIDIA Blackwell 架構的 HGX 系統是頂尖的加速擴充平台，推論效能比前一代提升了 11 倍，是專為要求最嚴苛的生成式 AI、資料分析與高效能運算工作負載而設計。

NVIDIA HGX 包含先進的網路選項，速度最高每秒 800 Gb，採用 NVIDIA Quantum-X800 InfiniBand 與 Spectrum™-X 乙太網路，締造最高的 AI 效能。HGX 還包含 NVIDIA BlueField®-3 資料處理器 (DPU)，可在超大規模 AI 雲端實現雲端網路、組合式儲存空間、零信任安全性，以及 GPU 運算彈性。

AI 推理效能與多功能性

DeepSeek-R1 ISL = 32K，OSL = 8K，HGX B300 搭配 FP4 Dynamo 分散式架構。H100 搭配 FP8 動態批次處理。預期效能可能會有所變更。

增加營收 xx AI 工廠產出

前沿曲線展示決定 AI 工廠 Token 收益產量的關鍵參數。垂直軸表示 1 兆瓦 (MW) AI 工廠的每秒 GPU Token (TPS) 傳輸量，而水平軸則將使用者互動與回應能力量化為單一使用者的 TPS。HGX B300 在傳輸量與回應能力之間取得了最佳的平衡，相較於 NVIDIA Hopper™ 架構，AI 工廠產出效能整體提升 30 倍，締造最高的 Token 收益。

大型 AI 模型的可擴充訓練

全新境界的訓練效能

HGX B300 平台為 DeepSeek-R1 等大型語言模型提供最高 2.6 倍的訓練效能。這款平台具備逾 2 TB 的高速記憶體，以及每秒 14.4 TB 的 NVLink Switch 頻寬，可實現大規模模型訓練以及 GPU 間的高傳輸量通訊。

預期效能可能會有所變更。每 GPU 效能、FP8、16K BS、16K 序列長度。

以 NVIDIA 網路技術加速 HGX 平台

AI 工廠與超級運算中心將數千顆 GPU 整合為單一的分散式運算引擎。若要充分利用加速器，AI 與科學工作負載就需要確定性延遲、無損失傳輸量、穩定的迭代時間，以及在資料中心內及跨多個站點擴充的能力。

NVIDIA 網路提供完整堆疊網狀架構，結合 NVIDIA NVLink 規模化擴展、NVIDIA Quantum InfiniBand 與 Spectrum-X™ 乙太網路規模化擴展、Spectrum-XGS 乙太網路多中心規模化擴展、適用於基礎架構服務的 NVIDIA® BlueField® DPU 與 DOCA™，以及新一代矽光子技術平台，實現全球要求最嚴苛的 AI 資料中心。

NVIDIA HGX 規格

NVIDIA HGX 採用單一基板，可搭載 8 顆 NVIDIA Rubin、NVIDIA Blackwell 或 NVIDIA Blackwell Ultra SXM。這些強大的軟硬體組合為前所未有的 AI 超級運算效能奠定了基礎。

NVIDIA Rubin NVL8
NVIDIA Blackwell

	HGX Rubin NVL8*
尺寸規格	8x NVIDIA Rubin SXM
NVFP4 Inference	400 PFLOPS
NVFP4 Training<sup>1</sup>	280 PFLOPS
FP8/FP6 Training<sup>1</sup>	140 PFLOPS
INT8 Tensor 核心<sup>1</sup>	2 PFLOPS
FP16/BF16 Tensor 核心<sup>1</sup>	32 PFLOPS
TF32 Tensor 核心<sup>1</sup>	16 PFLOPS
FP32	1040 TFLOPS
FP64/FP64 Tensor 核心	264 TFLOPS
FP32 SGEMM \| FP64 DGEMM核心<sup>2</sup>	3200 TF \| 1600 TF
總記憶體	2.3 TB
NVIDIA NVLink	第六代
NVIDIA NVLink Switch	NVLink 6 交換器
NVLink GPU 對 GPU 頻寬	3.6 TB/s
NVLink 總頻寬	28.8 TB/s
網路頻寬	1.6 TB/s

* 初步規格，可能有所變更。
1. 高密度規格。
2. 以 Tensor 核心為基礎的模擬演算法所達到的峰值效能。

	HGX B300<sup>3</sup>	HGX B200<sup>3</sup>
外形規格	8個 NVIDIA Blackwell Ultra SXM	8個 NVIDIA Blackwell SXM
FP4 Tensor 核心<sup>1</sup>	144 PFLOPS \| 108 PFLOPS	144 PFLOPS \| 72 PFLOPS
FP8/FP6 Tensor 核心<sup>2</sup>	72 PFLOPS	72 PFLOPS
INT8 Tensor 核心<sup>2</sup>	3 POPS	72 POPS
FP16/BF16 Tensor 核心<sup>2</sup>	36 PFLOPS	36 PFLOPS
TF32 Tensor 核心<sup>2</sup>	18 PFLOPS	18 PFLOPS
FP32	600 TFLOPS	600 TFLOPS
FP64/FP64 Tensor 核心	10 TFLOPS	296 TFLOPS
總記憶體	2.1 TB	1.4 TB
NVIDIA NVLink	第五代	第五代
NVIDIA NVLink Switch™	NVLink 5 Switch	NVLink 5 Switch
NVLink GPU 對 GPU 頻寬	每秒 1.8 TB	每秒 1.8 TB
總 NVLink 頻寬	每秒 14.4 TB	每秒 14.4 TB
網路頻寬	每秒 1.6 TB	每秒 0.8 TB
注意效能<sup>3</sup>	2x	1x

1. 稀疏的規格 | 密集
2. 稀疏的規格。密集型是所顯示稀疏規格的 ½。
3. 與 NVIDIA Blackwell 比較。
4. HGX B300 與 HGX B200 現正出貨中

閱讀 NVIDIA Blackwell Ultra 產品資料表

閱讀 NVIDIA Blackwell 產品資料表

深入瞭解 NVIDIA Blackwell 架構

深入瞭解