單機架 NVIDIA Vera Rubin NVL72

NVIDIA Vera Rubin NVL72

為迎接新世代打造的 AI 超級電腦。

概覽

六款新晶片,一台 AI 超級電腦

NVIDIA Vera Rubin NVL72 整合 NVIDIA 的尖端技術,包括 72 顆 Rubin GPU、36 顆 Vera CPU、ConnectX®-9 SuperNIC 與 BlueField®-4 DPU。這款電腦採用 NVIDIA NVLink™ 6 交換器,於一致性機架級平台垂直擴充智慧處理能力,並採用 NVIDIA Quantum-X800 InfiniBand 與 Spectrum-X™ 乙太網路橫向擴充,大規模推動 AI 產業革命。

Vera Rubin NVL72 採用第三代 NVIDIA MGX™ NVL72 機架設計,可從前幾代產品無縫轉換,相較於 Blackwell,提供 AI 訓練所需的 GPU 數量最多減少 4 倍,AI 推論的每個 Token 成本只有 1/10。這款機架級 AI 超級電腦採用無纜線模組化托盤設計,並獲得逾 80 個 MGX 生態系合作夥伴支援,可快速部署,實現世界級效能。

NVIDIA 以 Rubin 平台開啟新一代 AI 時代。

新世代平台以五大突破加速主流應用普及,明顯降低推理與代理 AI 模型的每個 token 成本。

深入解析 NVIDIA Rubin 平台:六款全新晶片,一台 AI 超級電腦。

NVIDIA Vera Rubin 採用極致的共同設計,將資料中心而非單一晶片視為運算單位,奠定可在大規模下高效、安全且可預測產出智慧的全新基礎。

效能

AI 訓練與推論效率大幅躍升

大幅提升訓練效率

針對混合專家 (MoE) 模型,相較於 NVIDIA Blackwell™ 架構,NVIDIA Rubin 的 GPU 需求最多可減少 4 倍。

預期效能可能會有所變更。採用 10T MoE 模型的 GPU 數量,在 1 個月的固定時限內,使用 100T Token 進行訓練。

LLM 推論效能可能會有所變更。根據使用 832K/18K ISL/OSL 的 Kimi-K2-Thinking 模型,比較 Blackwell GB200 NVL72 與 Rubin NVL72 每 100 萬個 Token 的成本。

降低推論成本

針對互動性強的深度推理代理型 AI,NVIDIA Rubin 每百萬 Token 的成本為 NVIDIA Blackwell 架構的 1/10。

技術突破

深入 AI 超級電腦

NVIDIA Rubin GPU

Rubin GPU 採用 HBM4 記憶體與可達 50 PF 的 NVFP4 Transformer Engine,專為新一代 AI 所打造。

NVIDIA Vera CPU

Vera CPU 專為資料搬移與代理式推理而打造,提供高頻寬、節能高效的運算能力,並具備確定性、可預測的效能表現。

NVIDIA NVLink 6 交換器

NVLink 6 交換器為每顆 GPU 提供高達每秒 3.6 TB 的全互連擴充頻寬,實現高速的 GPU 對 GPU 通訊,全面加速 AI 工作負載。

NVIDIA ConnectX-9 SuperNIC

ConnectX‑9 SuperNIC 提供每秒 1.6 Tb 的每 GPU 頻寬,並採用可程式化遠端直接記憶體存取 (RDMA),實現低延遲的大規模 GPU-direct 網路。

NVIDIA BlueField-4 DPU

BlueField-4 DPU 加速 AI 工廠中橫跨儲存、網路、網路安全與彈性擴展的資料處理。

採用共封裝光學的 NVIDIA Spectrum-X 乙太網路

Spectrum‑X 乙太網路橫向擴充交換器,採用整合式矽光子技術,相較於傳統網路,功率效率提升 5 倍、網路韌性提高 10 倍,正常運行時間則延長 5 倍。

規格¹

NVIDIA Vera Rubin NVL72 規格

  NVIDIA Vera Rubin NVL72 NVIDIA Vera Rubin 超級晶片 NVIDIA Rubin GPU
配置 72 顆 NVIDIA Rubin GPU | 36 顆 NVIDIA Vera CPU 2 顆 Rubin GPU | 1 顆 Vera CPU 1 顆 Rubin GPU
NVFP4 推論 3,600 PFLOPS 100 PFLOPS 50 PFLOPS
NVFP4 訓練 2,520 PFLOPS 70 PFLOPS 35 PFLOPS
FP8/FP6 訓練 1,260 PFLOPS 35 PFLOPS 17.5 個 PFLOPS
INT8² Dense 18 POPS 0.5 POPS 0.25 POPS
FP16/BF16² Dense 288 PFLOPS 8 PFLOPS 4 PFLOPS
TF32² Dense 144 PFLOPS 4 PFLOPS 2 個 PFLOPS
FP32 9,360 TFLOPS 260 每秒浮點運算次數 130 每秒浮點運算次數
FP64 2,400 TFLOPS 67 TFLOPS 33 每秒浮點運算次數
FP32 SGEMM³ 28,800 每秒浮點運算次數 800 每秒浮點運算次數 400 每秒浮點運算次數
FP64 DGEMM³ 14,400 TFLOPS 400 每秒浮點運算次數 200 每秒浮點運算次數
GPU 記憶體 | 頻寬 20.7 TB HBM4 | 1,580 TB/s 576 GB HBM4 | 44 TB/s 288 GB HBM4 | 22 TB/s
NVLink 頻寬 每秒 260 TB 每秒 7.2 TB 每秒 3.6 TB
NVLink-C2C 頻寬 65 TB/s 每秒 1.8 TB -
CPU 核心數量 3,168 個自訂 NVIDIA Olympus 核心 (與 Arm 相容) 88 個自訂 NVIDIA Olympus 核心 (與 Arm 相容) -
CPU 記憶體 54 TB LPDDR5X 1.5 TB LPDDR5X -
NVIDIA + HBM4 晶片總數 1,296 30 第 12 名

1. 初步資訊。所有數值皆為最大值,日後可能變更。
2. 高密度規格。
3. 以 Tensor 核心為基礎的模擬演算法所達到的峰值效能。

開始使用

隨時掌握 NVIDIA 最新消息

訂閱以接收 NVIDIA 的最新消息與更新。