單機架 NVIDIA Vera Rubin NVL72

NVIDIA Vera Rubin NVL72

為迎接新世代打造的 AI 超級電腦。

概覽

七款全新晶片,打造一台 AI 超級電腦

NVIDIA Vera Rubin NVL72 整合了 NVIDIA 的前瞻技術,包含 72 個 Rubin GPU、36 顆 Vera CPU、ConnectX®-9 SuperNIC™ 以及 BlueField®-4 DPU。該機櫃級平台透過 NVIDIA NVLink™ 6 交換器實現內部擴充,並透過 NVIDIA Quantum-X800 InfiniBand 與 Spectrum-X™ 乙太網路實現外部擴充,大規模驅動 AI 工業革命。當與 NVIDIA Groq 3 LPX 機櫃協同部署時,Vera Rubin NVL72 能針對兆級參數模型與百萬標記 (Token) 上下文提供全新等級的推論效能。

Vera Rubin NVL72 基於第三代 NVIDIA MGX™ NVL72 機櫃設計打造,提供與前代產品間的無縫銜接。與 NVIDIA Blackwell 相比,它僅需四分之一的 GPU 即可完成 AI 訓練,且每百萬標記的 AI 推論成本僅需十分之一。這款機櫃級 AI 超級電腦採用無電纜模組化托盤設計,並獲得超過 80 家 MGX 生態系夥伴支援,在提供世界級效能的同時實現快速部署

NVIDIA 以 Rubin 為新一代 AI 揭開序幕

這個尖端平台讓主流應用更普及,採用五項劃時代的推理與代理 AI 模型技術,大幅降低單一 Token 成本。

NVIDIA Vera Rubin 開啟代理 AI 前沿新紀元

NVIDIA Vera Rubin 平台提供七款全新晶片,現已全面投產,助力擴展全球規模最大的 AI 工廠。

效能

AI 訓練與推論效率大幅躍升

大幅提升訓練效率

針對混合專家 (MoE) 模型,相較於 NVIDIA Blackwell™ 架構,NVIDIA Rubin 的 GPU 需求最多可減少 4 倍。

預期效能可能會有所變更。採用 10T MoE 模型的 GPU 數量,在 1 個月的固定時限內,使用 100T Token 進行訓練。

LLM 推論效能可能會有所變更。根據使用 32K/8K ISL/OSL 的 Kimi-K2-Thinking 模型,比較 Blackwell GB200 NVL72 與 Rubin NVL72 每 100 萬個 Token 的成本。

降低推論成本

針對互動性強的深度推理代理型 AI,NVIDIA Rubin 每百萬 Token 的成本為 NVIDIA Blackwell 架構的 1/10。

技術突破

深入 AI 超級電腦

NVIDIA Rubin GPU

Rubin GPU 採用 HBM4 記憶體與可達 50 PF 的 NVFP4 Transformer Engine,專為新一代 AI 所打造。

NVIDIA Vera CPU

Vera CPU 專為資料搬移與代理式推理而打造,提供高頻寬、節能高效的運算能力,並具備確定性、可預測的效能表現。

NVIDIA NVLink 6 交換器

NVLink 6 交換器為每顆 GPU 提供高達每秒 3.6 TB 的全互連擴充頻寬,實現高速的 GPU 對 GPU 通訊,全面加速 AI 工作負載。

NVIDIA ConnectX-9 SuperNIC

ConnectX‑9 SuperNIC 提供每秒 1.6 Tb 的每 GPU 頻寬,並採用可程式化遠端直接記憶體存取 (RDMA),實現低延遲的大規模 GPU-direct 網路。

NVIDIA BlueField-4 DPU

BlueField-4 DPU 加速 AI 工廠中橫跨儲存、網路、網路安全與彈性擴展的資料處理。

採用共封裝光學的 NVIDIA Spectrum-X 乙太網路

Spectrum‑X 乙太網路橫向擴充交換器,採用整合式矽光子技術,相較於傳統網路,功率效率提升 5 倍、網路韌性提高 10 倍,正常運行時間則延長 5 倍。

NVIDIA Groq 3 LPU

這是專為 NVIDIA Vera Rubin NVL72 打造的推論加速器,旨在滿足代理 AI 系統對低延遲與大上下文的需求。NVIDIA Groq 3 LPX 機櫃配備 256 個 LPU,具備 128 GB SRAM、40 PB/s 記憶體頻寬,以及每機櫃 640 TB/s 的內部擴充頻寬。此架構與 Vera Rubin NVL72 共同設計,相較於 Blackwell,能為兆級參數模型提升 35 倍的每瓦推論效能,並增加高達 10 倍的獲利機會。

規格¹

NVIDIA Vera Rubin NVL72 規格

  NVIDIA Vera Rubin NVL72 NVIDIA Vera Rubin 超級晶片 NVIDIA Rubin GPU
配置 72 顆 NVIDIA Rubin GPU | 36 顆 NVIDIA Vera CPU 2 顆 Rubin GPU | 1 顆 Vera CPU 1 顆 Rubin GPU
NVFP4 推論 3,600 PFLOPS 100 PFLOPS 50 PFLOPS
NVFP4² 訓練 2,520 PFLOPS 70 PFLOPS 35 PFLOPS
FP8/FP6² 訓練 1,260 PFLOPS 35 PFLOPS 17.5 個 PFLOPS
INT8² Dense 18 POPS 0.5 POPS 0.25 POPS
FP16/BF16² Dense 288 PFLOPS 8 PFLOPS 4 PFLOPS
TF32² Dense 144 PFLOPS 4 PFLOPS 2 個 PFLOPS
FP32 9,360 TFLOPS 260 每秒浮點運算次數 130 每秒浮點運算次數
FP64 2,400 TFLOPS 67 TFLOPS 33 每秒浮點運算次數
FP32 SGEMM³ 28,800 每秒浮點運算次數 800 每秒浮點運算次數 400 每秒浮點運算次數
FP64 DGEMM³ 14,400 TFLOPS 400 每秒浮點運算次數 200 每秒浮點運算次數
GPU 記憶體 | 頻寬 20.7 TB HBM4 | 1,580 TB/s 576 GB HBM4 | 44 TB/s 288 GB HBM4 | 22 TB/s
NVLink 頻寬 每秒 260 TB 每秒 7.2 TB 每秒 3.6 TB
NVLink-C2C 頻寬 65 TB/s 每秒 1.8 TB -
CPU 核心數量 3,168 個自訂 NVIDIA Olympus 核心 (與 Arm 相容) 88 個自訂 NVIDIA Olympus 核心 (與 Arm 相容) -
CPU 記憶體 54 TB LPDDR5X 1.5 TB LPDDR5X -
NVIDIA + HBM4 晶片總數 1,296 30 第 12 名

1. 初步資訊。所有數值皆為最大值,日後可能變更。
2. 高密度規格。
3. 以 Tensor 核心為基礎的模擬演算法所達到的峰值效能。

開始使用

隨時掌握 NVIDIA 最新消息

訂閱以接收 NVIDIA 的最新消息與更新。