NVIDIA HGX 平台

為每個資料中心大幅提升 AI 與高效能運算。

概覽

為每個資料中心強化 AI 與高效能運算

NVIDIA HGX™ 平台整合 NVIDIA GPU、NVIDIA NVLink™、NVIDIA 網路的完整實力,以及全面最佳化的 AI 與高效能運算 (HPC) 軟體堆疊,提供最高的應用程式效能,並以最快的速度為每個資料中心提供深入解析。

NVIDIA HGX Rubin NVL8 整合 8 顆 NVIDIA Rubin GPU 與第六代高速 NVLink 互連技術,提供比 HGX B200 高 4 倍的密集 NVFP4 Tensor 核心 FLOPS,帶動資料中心進入加速運算與生成式 AI 的新時代。 採用 NVIDIA Rubin 的 HGX 系統是頂尖的加速擴展平台,AI 工廠輸出量比前一代高 xxxx 倍,專為最嚴苛的生成式 AI、資料分析與高效能運算工作負載而設計。

NVIDIA以Rubin開啟新一代AI:六款全新晶片、一部出色的AI超級電腦

新一代平台擴大了主流運用,透過五項突破性技術,提升推理與代理型 AI 效率,降低每個詞元(token)的成本。

AI 推理效能與多功能性

AI、複雜的模擬與大規模資料集,必須以多顆 GPU 搭配超高速互連技術,以及完整加速的軟體堆疊。NVIDIA HGX™ 平台整合 NVIDIA GPU、NVIDIA NVLink™ 與 NVIDIA 網路的完整實力,以及全面最佳化的 AI 與高效能運算 (HPC) 軟體堆疊,提供最高的應用程式效能,並以最快的速度為各個資料中心提供深入解析。

無與倫比的端到端加速運算平台

NVIDIA HGX B300 將 NVIDIA Blackwell Ultra GPU 與高速互連技術整合,推動資料中心進入加速運算與生成式 AI 的新時代。NVIDIA Blackwell 架構的 HGX 系統是頂尖的加速擴充平台,推論效能比前一代提升了 11 倍,是專為要求最嚴苛的生成式 AI、資料分析與高效能運算工作負載而設計。

NVIDIA HGX 包含先進的網路選項,速度最高每秒 800 Gb,採用 NVIDIA Quantum-X800 InfiniBand 與 Spectrum™-X 乙太網路,締造最高的 AI 效能。HGX 還包含 NVIDIA BlueField®-3 資料處理器 (DPU),可在超大規模 AI 雲端實現雲端網路、組合式儲存空間、零信任安全性,以及 GPU 運算彈性。

AI 推理效能與多功能性

DeepSeek-R1 ISL = 32K,OSL = 8K,HGX B300 搭配 FP4 Dynamo 分散式架構。H100 搭配 FP8 動態批次處理。預期效能可能會有所變更。

增加營收 xx AI 工廠產出

前沿曲線展示決定 AI 工廠 Token 收益產量的關鍵參數。垂直軸表示 1 兆瓦 (MW) AI 工廠的每秒 GPU Token (TPS) 傳輸量,而水平軸則將使用者互動與回應能力量化為單一使用者的 TPS。HGX B300 在傳輸量與回應能力之間取得了最佳的平衡,相較於 NVIDIA Hopper™ 架構,AI 工廠產出效能整體提升 30 倍,締造最高的 Token 收益。

大型 AI 模型的可擴充訓練

全新境界的訓練效能

HGX B300 平台為 DeepSeek-R1 等大型語言模型提供最高 2.6 倍的訓練效能。這款平台具備逾 2 TB 的高速記憶體,以及每秒 14.4 TB 的 NVLink Switch 頻寬,可實現大規模模型訓練以及 GPU 間的高傳輸量通訊。

預期效能可能會有所變更。每 GPU 效能、FP8、16K BS、16K 序列長度。

以 NVIDIA 網路技術加速 HGX 平台

AI 工廠與超級運算中心將數千顆 GPU 整合為單一的分散式運算引擎。 若要充分利用加速器,AI 與科學工作負載就需要確定性延遲、無損失傳輸量、穩定的迭代時間,以及在資料中心內及跨多個站點擴充的能力。

NVIDIA 網路提供完整堆疊網狀架構,結合 NVIDIA NVLink 規模化擴展、NVIDIA Quantum InfiniBand 與 Spectrum-X™ 乙太網路規模化擴展、Spectrum-XGS 乙太網路多中心規模化擴展、適用於基礎架構服務的 NVIDIA® BlueField® DPU 與 DOCA™,以及新一代矽光子技術平台,實現全球要求最嚴苛的 AI 資料中心。

NVIDIA HGX 規格

NVIDIA HGX 採用單一基板,可搭載 8 顆 NVIDIA Rubin、NVIDIA Blackwell 或 NVIDIA Blackwell Ultra SXM。 這些強大的軟硬體組合為前所未有的 AI 超級運算效能奠定了基礎。

HGX Rubin NVL8*
尺寸規格 8x NVIDIA Rubin SXM
NVFP4 Inference 400 PFLOPS
NVFP4 Training 280 PFLOPS
FP8/FP6 Training 140 PFLOPS
INT8 Tensor 核心<sup>1</sup> 2 PFLOPS
FP16/BF16 Tensor 核心<sup>1</sup> 32 PFLOPS
TF32 Tensor 核心<sup>1</sup> 16 PFLOPS
FP32 1040 TFLOPS
FP64/FP64 Tensor 核心 264 TFLOPS
FP32 SGEMM | FP64 DGEMM核心<sup>2</sup> 3200 TF | 1600 TF
總記憶體 2.3 TB
NVIDIA NVLink 第六代
NVIDIA NVLink Switch NVLink 6 交換器
NVLink GPU 對 GPU 頻寬 3.6 TB/s
NVLink 總頻寬 28.8 TB/s
網路頻寬 1.6 TB/s

* 初步規格,可能有所變更。
1. 高密度規格。
2. 以 Tensor 核心為基礎的模擬演算法所達到的峰值效能。

HGX B300 HGX B200
外形規格 8個 NVIDIA Blackwell Ultra SXM 8個 NVIDIA Blackwell SXM
FP4 Tensor 核心<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor 核心<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor 核心<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor 核心<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor 核心<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor 核心 10 TFLOPS 296 TFLOPS
總記憶體 2.1 TB 1.4 TB
NVIDIA NVLink 第五代 第五代
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU 對 GPU 頻寬 每秒 1.8 TB 每秒 1.8 TB
總 NVLink 頻寬 每秒 14.4 TB 每秒 14.4 TB
網路頻寬 每秒 1.6 TB 每秒 0.8 TB
注意效能<sup>3</sup> 2x 1x

1. 稀疏的規格 | 密集
2. 稀疏的規格。密集型是所顯示稀疏規格的 ½。
3. 與 NVIDIA Blackwell 比較。

深入瞭解 NVIDIA Blackwell 架構