為每個資料中心大幅提升 AI 與高效能運算。
NVIDIA HGX™ 平台整合 NVIDIA GPU、NVIDIA NVLink™、NVIDIA 網路的完整實力,以及全面最佳化的 AI 與高效能運算 (HPC) 軟體堆疊,提供最高的應用程式效能,並以最快的速度為每個資料中心提供深入解析。
NVIDIA HGX Rubin NVL8 整合 8 顆 NVIDIA Rubin GPU 與第六代高速 NVLink 互連技術,提供比 HGX B200 高 4 倍的密集 NVFP4 Tensor 核心 FLOPS,帶動資料中心進入加速運算與生成式 AI 的新時代。 採用 NVIDIA Rubin 的 HGX 系統是頂尖的加速擴展平台,AI 工廠輸出量比前一代高 xxxx 倍,專為最嚴苛的生成式 AI、資料分析與高效能運算工作負載而設計。
AI 工廠與超級運算中心將數千顆 GPU 整合為單一的分散式運算引擎。 若要充分利用加速器,AI 與科學工作負載就需要確定性延遲、無損失傳輸量、穩定的迭代時間,以及在資料中心內及跨多個站點擴充的能力。
NVIDIA 網路提供完整堆疊網狀架構,結合 NVIDIA NVLink 規模化擴展、NVIDIA Quantum InfiniBand 與 Spectrum-X™ 乙太網路規模化擴展、Spectrum-XGS 乙太網路多中心規模化擴展、適用於基礎架構服務的 NVIDIA® BlueField® DPU 與 DOCA™,以及新一代矽光子技術平台,實現全球要求最嚴苛的 AI 資料中心。
NVIDIA HGX 採用單一基板,可搭載 8 顆 NVIDIA Rubin、NVIDIA Blackwell 或 NVIDIA Blackwell Ultra SXM。 這些強大的軟硬體組合為前所未有的 AI 超級運算效能奠定了基礎。
| HGX Rubin NVL8* | |
|---|---|
| 尺寸規格 | 8x NVIDIA Rubin SXM |
| NVFP4 Inference | 400 PFLOPS |
| NVFP4 Training | 280 PFLOPS |
| FP8/FP6 Training | 140 PFLOPS |
| INT8 Tensor 核心<sup>1</sup> | 2 PFLOPS |
| FP16/BF16 Tensor 核心<sup>1</sup> | 32 PFLOPS |
| TF32 Tensor 核心<sup>1</sup> | 16 PFLOPS |
| FP32 | 1040 TFLOPS |
| FP64/FP64 Tensor 核心 | 264 TFLOPS |
| FP32 SGEMM | FP64 DGEMM核心<sup>2</sup> | 3200 TF | 1600 TF |
| 總記憶體 | 2.3 TB |
| NVIDIA NVLink | 第六代 |
| NVIDIA NVLink Switch | NVLink 6 交換器 |
| NVLink GPU 對 GPU 頻寬 | 3.6 TB/s |
| NVLink 總頻寬 | 28.8 TB/s |
| 網路頻寬 | 1.6 TB/s |
* 初步規格,可能有所變更。
1. 高密度規格。
2. 以 Tensor 核心為基礎的模擬演算法所達到的峰值效能。
| HGX B300 | HGX B200 | |
|---|---|---|
| 外形規格 | 8個 NVIDIA Blackwell Ultra SXM | 8個 NVIDIA Blackwell SXM |
| FP4 Tensor 核心<sup>1</sup> | 144 PFLOPS | 108 PFLOPS | 144 PFLOPS | 72 PFLOPS |
| FP8/FP6 Tensor 核心<sup>2</sup> | 72 PFLOPS | 72 PFLOPS |
| INT8 Tensor 核心<sup>2</sup> | 3 POPS | 72 POPS |
| FP16/BF16 Tensor 核心<sup>2</sup> | 36 PFLOPS | 36 PFLOPS |
| TF32 Tensor 核心<sup>2</sup> | 18 PFLOPS | 18 PFLOPS |
| FP32 | 600 TFLOPS | 600 TFLOPS |
| FP64/FP64 Tensor 核心 | 10 TFLOPS | 296 TFLOPS |
| 總記憶體 | 2.1 TB | 1.4 TB |
| NVIDIA NVLink | 第五代 | 第五代 |
| NVIDIA NVLink Switch™ | NVLink 5 Switch | NVLink 5 Switch |
| NVLink GPU 對 GPU 頻寬 | 每秒 1.8 TB | 每秒 1.8 TB |
| 總 NVLink 頻寬 | 每秒 14.4 TB | 每秒 14.4 TB |
| 網路頻寬 | 每秒 1.6 TB | 每秒 0.8 TB |
| 注意效能<sup>3</sup> | 2x | 1x |
1. 稀疏的規格 | 密集
2. 稀疏的規格。密集型是所顯示稀疏規格的 ½。
3. 與 NVIDIA Blackwell 比較。
深入瞭解 NVIDIA Blackwell 架構