NVIDIA Vera Rubin NVL72

為迎接新世代打造的 AI 超級電腦。

概覽

七款全新晶片，打造一台 AI 超級電腦

NVIDIA Vera Rubin NVL72 整合了 NVIDIA 的前瞻技術，包含 72 個 Rubin GPU、36 顆 Vera CPU、ConnectX®-9 SuperNIC™ 以及 BlueField®-4 DPU。該機櫃級平台透過 NVIDIA NVLink™ 6 交換器實現內部擴充，並透過 NVIDIA Quantum-X800 InfiniBand 與 Spectrum-X™ 乙太網路實現外部擴充，大規模驅動 AI 工業革命。當與 NVIDIA Groq 3 LPX 機櫃協同部署時，Vera Rubin NVL72 能針對兆級參數模型與百萬標記 (Token) 上下文提供全新等級的推論效能。

Vera Rubin NVL72 基於第三代 NVIDIA MGX™ NVL72 機櫃設計打造，提供與前代產品間的無縫銜接。與 NVIDIA Blackwell 相比，它僅需四分之一的 GPU 即可完成 AI 訓練，且每百萬標記的 AI 推論成本僅需十分之一。這款機櫃級 AI 超級電腦採用無電纜模組化托盤設計，並獲得超過 80 家 MGX 生態系夥伴支援，在提供世界級效能的同時實現快速部署

NVIDIA 以 Rubin 為新一代 AI 揭開序幕

這個尖端平台讓主流應用更普及，採用五項劃時代的推理與代理 AI 模型技術，大幅降低單一 Token 成本。

閱讀新聞稿

NVIDIA Vera Rubin 開啟代理 AI 前沿新紀元

NVIDIA Vera Rubin 平台提供七款全新晶片，現已全面投產，助力擴展全球規模最大的 AI 工廠。

閱讀新聞稿

效能

AI 訓練與推論效率大幅躍升

大幅提升訓練效率

針對混合專家 (MoE) 模型，相較於 NVIDIA Blackwell™ 架構，NVIDIA Rubin 的 GPU 需求最多可減少 4 倍。

預期效能可能會有所變更。採用 10T MoE 模型的 GPU 數量，在 1 個月的固定時限內，使用 100T Token 進行訓練。

LLM 推論效能可能會有所變更。根據使用 32K/8K ISL/OSL 的 Kimi-K2-Thinking 模型，比較 Blackwell GB200 NVL72 與 Rubin NVL72 每 100 萬個 Token 的成本。

降低推論成本

針對互動性強的深度推理代理型 AI，NVIDIA Rubin 每百萬 Token 的成本為 NVIDIA Blackwell 架構的 1/10。

技術突破

深入 AI 超級電腦

NVIDIA Rubin GPU

Rubin GPU 採用 HBM4 記憶體與可達 50 PF 的 NVFP4 Transformer Engine，專為新一代 AI 所打造。

深入瞭解

NVIDIA Vera CPU

Vera CPU 專為資料搬移與代理式推理而打造，提供高頻寬、節能高效的運算能力，並具備確定性、可預測的效能表現。

深入瞭解

NVIDIA NVLink 6 交換器

NVLink 6 交換器為每顆 GPU 提供高達每秒 3.6 TB 的全互連擴充頻寬，實現高速的 GPU 對 GPU 通訊，全面加速 AI 工作負載。

深入瞭解

NVIDIA ConnectX-9 SuperNIC

ConnectX‑9 SuperNIC 提供每秒 1.6 Tb 的每 GPU 頻寬，並採用可程式化遠端直接記憶體存取 (RDMA)，實現低延遲的大規模 GPU-direct 網路。

深入瞭解

NVIDIA BlueField-4 DPU

BlueField-4 DPU 加速 AI 工廠中橫跨儲存、網路、網路安全與彈性擴展的資料處理。

深入瞭解

採用共封裝光學的 NVIDIA Spectrum-X 乙太網路

Spectrum‑X 乙太網路橫向擴充交換器，採用整合式矽光子技術，相較於傳統網路，功率效率提升 5 倍、網路韌性提高 10 倍，正常運行時間則延長 5 倍。

深入瞭解

NVIDIA Groq 3 LPU

這是專為 NVIDIA Vera Rubin NVL72 打造的推論加速器，旨在滿足代理 AI 系統對低延遲與大上下文的需求。NVIDIA Groq 3 LPX 機櫃配備 256 個 LPU，具備 128 GB SRAM、40 PB/s 記憶體頻寬，以及每機櫃 640 TB/s 的內部擴充頻寬。此架構與 Vera Rubin NVL72 共同設計，相較於 Blackwell，能為兆級參數模型提升 35 倍的每瓦推論效能，並增加高達 10 倍的獲利機會。

深入瞭解

規格¹

NVIDIA Vera Rubin NVL72 規格

	NVIDIA Vera Rubin NVL72	NVIDIA Vera Rubin 超級晶片	NVIDIA Rubin GPU
配置	72 顆 NVIDIA Rubin GPU \| 36 顆 NVIDIA Vera CPU	2 顆 Rubin GPU \| 1 顆 Vera CPU	1 顆 Rubin GPU
NVFP4 推論	3,600 PFLOPS	100 PFLOPS	50 PFLOPS
NVFP4² 訓練	2,520 PFLOPS	70 PFLOPS	35 PFLOPS
FP8/FP6² 訓練	1,260 PFLOPS	35 PFLOPS	17.5 個 PFLOPS
INT8² Dense	18 POPS	0.5 POPS	0.25 POPS
FP16/BF16² Dense	288 PFLOPS	8 PFLOPS	4 PFLOPS
TF32² Dense	144 PFLOPS	4 PFLOPS	2 個 PFLOPS
FP32	9,360 TFLOPS	260 每秒浮點運算次數	130 每秒浮點運算次數
FP64	2,400 TFLOPS	67 TFLOPS	33 每秒浮點運算次數
FP32 SGEMM³	28,800 每秒浮點運算次數	800 每秒浮點運算次數	400 每秒浮點運算次數
FP64 DGEMM³	14,400 TFLOPS	400 每秒浮點運算次數	200 每秒浮點運算次數
GPU 記憶體 \| 頻寬	20.7 TB HBM4 \| 1,580 TB/s	576 GB HBM4 \| 44 TB/s	288 GB HBM4 \| 22 TB/s
NVLink 頻寬	每秒 260 TB	每秒 7.2 TB	每秒 3.6 TB
NVLink-C2C 頻寬	65 TB/s	每秒 1.8 TB	-
CPU 核心數量	3,168 個自訂 NVIDIA Olympus 核心 (與 Arm 相容)	88 個自訂 NVIDIA Olympus 核心 (與 Arm 相容)	-
CPU 記憶體	54 TB LPDDR5X	1.5 TB LPDDR5X	-
NVIDIA + HBM4 晶片總數	1,296	30	第 12 名

1. 初步資訊。所有數值皆為最大值，日後可能變更。
2. 高密度規格。
3. 以 Tensor 核心為基礎的模擬演算法所達到的峰值效能。

開始使用

隨時掌握 NVIDIA 最新消息

訂閱以接收 NVIDIA 的最新消息與更新。

掌握最新消息