為迎接新世代打造的 AI 超級電腦。
概覽
NVIDIA Vera Rubin NVL72 整合 NVIDIA 的尖端技術,包括 72 顆 Rubin GPU、36 顆 Vera CPU、ConnectX®-9 SuperNIC 與 BlueField®-4 DPU。這款電腦採用 NVIDIA NVLink™ 6 交換器,於一致性機架級平台垂直擴充智慧處理能力,並採用 NVIDIA Quantum-X800 InfiniBand 與 Spectrum-X™ 乙太網路橫向擴充,大規模推動 AI 產業革命。
Vera Rubin NVL72 採用第三代 NVIDIA MGX™ NVL72 機架設計,可從前幾代產品無縫轉換,相較於 Blackwell,提供 AI 訓練所需的 GPU 數量最多減少 4 倍,AI 推論的每個 Token 成本只有 1/10。這款機架級 AI 超級電腦採用無纜線模組化托盤設計,並獲得逾 80 個 MGX 生態系合作夥伴支援,可快速部署,實現世界級效能。
效能
針對混合專家 (MoE) 模型,相較於 NVIDIA Blackwell™ 架構,NVIDIA Rubin 的 GPU 需求最多可減少 4 倍。
預期效能可能會有所變更。採用 10T MoE 模型的 GPU 數量,在 1 個月的固定時限內,使用 100T Token 進行訓練。
LLM 推論效能可能會有所變更。根據使用 832K/18K ISL/OSL 的 Kimi-K2-Thinking 模型,比較 Blackwell GB200 NVL72 與 Rubin NVL72 每 100 萬個 Token 的成本。
針對互動性強的深度推理代理型 AI,NVIDIA Rubin 每百萬 Token 的成本為 NVIDIA Blackwell 架構的 1/10。
技術突破
規格¹
| NVIDIA Vera Rubin NVL72 | NVIDIA Vera Rubin 超級晶片 | NVIDIA Rubin GPU | |
|---|---|---|---|
| 配置 | 72 顆 NVIDIA Rubin GPU | 36 顆 NVIDIA Vera CPU | 2 顆 Rubin GPU | 1 顆 Vera CPU | 1 顆 Rubin GPU |
| NVFP4 推論 | 3,600 PFLOPS | 100 PFLOPS | 50 PFLOPS |
| NVFP4 訓練 | 2,520 PFLOPS | 70 PFLOPS | 35 PFLOPS |
| FP8/FP6 訓練 | 1,260 PFLOPS | 35 PFLOPS | 17.5 個 PFLOPS |
| INT8² Dense | 18 POPS | 0.5 POPS | 0.25 POPS |
| FP16/BF16² Dense | 288 PFLOPS | 8 PFLOPS | 4 PFLOPS |
| TF32² Dense | 144 PFLOPS | 4 PFLOPS | 2 個 PFLOPS |
| FP32 | 9,360 TFLOPS | 260 每秒浮點運算次數 | 130 每秒浮點運算次數 |
| FP64 | 2,400 TFLOPS | 67 TFLOPS | 33 每秒浮點運算次數 |
| FP32 SGEMM³ | 28,800 每秒浮點運算次數 | 800 每秒浮點運算次數 | 400 每秒浮點運算次數 |
| FP64 DGEMM³ | 14,400 TFLOPS | 400 每秒浮點運算次數 | 200 每秒浮點運算次數 |
| GPU 記憶體 | 頻寬 | 20.7 TB HBM4 | 1,580 TB/s | 576 GB HBM4 | 44 TB/s | 288 GB HBM4 | 22 TB/s |
| NVLink 頻寬 | 每秒 260 TB | 每秒 7.2 TB | 每秒 3.6 TB |
| NVLink-C2C 頻寬 | 65 TB/s | 每秒 1.8 TB | - |
| CPU 核心數量 | 3,168 個自訂 NVIDIA Olympus 核心 (與 Arm 相容) | 88 個自訂 NVIDIA Olympus 核心 (與 Arm 相容) | - |
| CPU 記憶體 | 54 TB LPDDR5X | 1.5 TB LPDDR5X | - |
| NVIDIA + HBM4 晶片總數 | 1,296 | 30 | 第 12 名 |
1. 初步資訊。所有數值皆為最大值,日後可能變更。
2. 高密度規格。
3. 以 Tensor 核心為基礎的模擬演算法所達到的峰值效能。
開始使用
訂閱以接收 NVIDIA 的最新消息與更新。