單機架 NVIDIA Vera Rubin NVL72

NVIDIA Vera Rubin NVL72

打造代理 AI 的前沿新紀元

概覽

七款全新晶片,打造一台 AI 超級電腦

NVIDIA Vera Rubin NVL72 整合 NVIDIA 的前瞻技術,包含 72 個 Rubin GPU、36 顆 Vera CPU、ConnectX®-9 SuperNIC™ 以及 BlueField®-4 DPU。該機櫃級平台透過 NVIDIA NVLink™ 6 交換器實現內部擴充,並透過 NVIDIA Quantum-X800 InfiniBand 與 Spectrum-X™ 乙太網路實現外部擴充,大規模驅動 AI 工業革命。當與 NVIDIA Groq 3 LPX 機櫃協同部署時,Vera Rubin NVL72 能針對兆級參數模型與百萬標記 (Token) 上下文提供全新等級的推論效能。

Vera Rubin NVL72 基於第三代 NVIDIA MGX™ NVL72 機櫃設計打造,提供與前代產品之間的無縫銜接。與 NVIDIA Blackwell 相比,它僅需四分之一的 GPU 即可完成 AI 訓練,且每百萬標記的 AI 推論成本僅需十分之一。這款機櫃級 AI 超級電腦採用無電纜模組化托盤設計,並獲得超過 80 家 MGX 生態系夥伴支援,在提供世界級效能的同時實現快速部署

NVIDIA Vera Rubin 全面量產,為全球代理 AI 工廠提供動力

NVIDIA Vera Rubin 正全面投入生產,台灣頂尖伺服器製造商與全球供應鏈領導者進行大規模製造並推出基於 Vera Rubin 的系統,藉此推動 AI 實驗室、雲端服務商與超大規模企業,打造未來的智慧。

NVIDIA Vera Rubin 開啟代理 AI 前沿新紀元

NVIDIA Vera Rubin 平台提供七款全新晶片,現已全面量產,協助擴展全球規模最大的 AI 工廠。

效能

AI 推論與訓練效率大幅提升

LLM 推論效能可能會有所變更。根據使用 32K/8K ISL/OSL 的 Kimi-K2 思考模型,比較 NVIDIA GB200 NVL72 與 NVIDIA Vera Rubin NVL72 每 100 萬個 Token 的成本。

降低推論成本

NVIDIA Vera Rubin NVL72 每百萬 Token 的成本僅為 NVIDIA GB200 NVL72 的十分之一,實現高度互動、深度推理的代理 AI。

將 AI 工廠傳輸量最大化

NVIDIA Vera Rubin NVL72 每兆瓦能提供高達十倍 NVIDIA GB200 NVL72 的 Token 數量,在相同的功耗下擴展智慧。

LLM 推論效能可能會有所變更。根據使用 32K/8K ISL/OSL 的 Kimi-K2 思考模型,比較 NVIDIA GB200 NVL72 與 NVIDIA Vera Rubin NVL72 的每秒每兆瓦 Token 數量。

此為預測效能,之後可能會有所變動。採用 10T MoE 模型的 GPU 數量,在 1 個月的固定時限內,使用 100T Token 進行訓練,比較 NVIDIA GB200 NVL72 與 NVIDIA Vera Rubin NVL72。

大幅提升訓練效率

NVIDIA Vera Rubin NVL72 訓練mixture-of-experts (MoE) 模型時,GPU 數量僅為 NVIDIA GB200 NVL72 的四分之一。

兆級參數模型的傳輸量提升 35 倍

代理系統消耗的 Token,最高可達傳統 AI 應用程式的 15 倍。AI 工廠必須以低延遲與高效的經濟效益,提供 Token 運算量以及處理海量的上下文視窗。Vera Rubin NVL72 搭配 LPX 時,可為兆參數模型提供高達 35 倍的每兆瓦傳輸量。

此為預測效能,之後可能會有所變動。免費方案($0):Qwen-3 2,350 億參數模型,搭配 32K KV 快取詞元。中階方案($3):Kimi K2.5 1 兆級參數模型,搭配 128K KV 快取詞元。高階方案($6):GPT-MoE 2 兆級參數模型,搭配 128K KV 快取詞元。尊榮方案($45)與旗艦方案($150):GPT-MoE 2 兆級參數模型,搭配 400K KV 快取詞元。

推動 AI 代理程式時代

Vera Rubin 平台內部

NVIDIA Rubin GPU

Rubin GPU 採用 HBM4 記憶體與可達 50 PF 的 NVFP4 Transformer Engine,專為新一代 AI 所打造。

NVIDIA Vera CPU

Vera CPU 專為資料搬移與代理式推理而打造,提供高頻寬、節能高效的運算能力,並具備確定性、可預測的效能表現。

NVIDIA NVLink 6 交換器

NVLink 6 交換器為每顆 GPU 提供高達每秒 3.6 TB 的全互連擴充頻寬,實現高速的 GPU 對 GPU 通訊,全面加速 AI 工作負載。

NVIDIA ConnectX-9 SuperNIC

ConnectX‑9 SuperNIC 提供每秒 1.6 Tb 的每 GPU 頻寬,並採用可程式化遠端直接記憶體存取 (RDMA),實現低延遲的大規模 GPU-direct 網路。

NVIDIA BlueField-4 DPU

BlueField-4 DPU 加速 AI 工廠中橫跨儲存、網路、網路安全與彈性擴展的資料處理。

採用共封裝光學的 NVIDIA Spectrum-X 乙太網路

Spectrum‑X 乙太網路橫向擴充交換器,採用整合式矽光子技術,相較於傳統網路,功率效率提升 5 倍、網路韌性提高 10 倍,正常運行時間則延長 5 倍。

NVIDIA Groq 3 LPU

這是專為 NVIDIA Vera Rubin NVL72 打造的推論加速器,旨在滿足代理 AI 系統對低延遲與大上下文的需求。NVIDIA Groq 3 LPX 機櫃配備 256 個 LPU,具備 128 GB SRAM、40 PB/s 記憶體頻寬,以及每機櫃 640 TB/s 的內部擴充頻寬。此架構與 Vera Rubin NVL72 共同設計,相較於 Blackwell,能為兆級參數模型提升 35 倍的每瓦推論效能,並增加高達 10 倍的獲利機會。

規格¹

NVIDIA Vera Rubin NVL72 規格

NVIDIA Vera Rubin NVL72 NVIDIA Vera Rubin 超級晶片 NVIDIA Rubin GPU
配置 72 顆 NVIDIA Rubin GPU | 36 顆 NVIDIA Vera CPU 2 顆 Rubin GPU | 1 顆 Vera CPU 1 顆 Rubin GPU
NVFP4 推論 3,600 PFLOPS 100 PFLOPS 50 PFLOPS
NVFP4² 訓練 2,520 PFLOPS 70 PFLOPS 35 PFLOPS
FP8/FP6² 訓練 1,260 PFLOPS 35 PFLOPS 17.5 個 PFLOPS
INT8² Dense 18 POPS 500 TOPS 250 TOPS
FP16/BF16² Dense 288 PFLOPS 8 PFLOPS 4 PFLOPS
TF32² Dense 144 PFLOPS 4 PFLOPS 2 個 PFLOPS
FP32 9,360 TFLOPS 260 每秒浮點運算次數 130 每秒浮點運算次數
FP64 2,400 TFLOPS 67 TFLOPS 33 每秒浮點運算次數
FP32 SGEMM³ 28,800 每秒浮點運算次數 800 每秒浮點運算次數 400 每秒浮點運算次數
FP64 DGEMM³ 14,400 TFLOPS 400 每秒浮點運算次數 200 每秒浮點運算次數
GPU 記憶體 | 頻寬 20.7 TB HBM4 | 1,580 TB/s 576 GB HBM4 | 44 TB/s 288 GB HBM4 | 22 TB/s
NVIDIA NVLink 第六代
NVLink 頻寬 每秒 260 TB
(NVLink 6 交換器頻寬)
每秒 7.2 TB 每秒 3.6 TB
NVLink-C2C 頻寬 65 TB/s 每秒 1.8 TB -
CPU 核心數量 3,168 個自訂 NVIDIA Olympus 核心 (與 Arm® 相容) 88 個自訂 NVIDIA Olympus 核心 (與 Arm® 相容) -
CPU 記憶體 54 TB LPDDR5X 1.5 TB LPDDR5X -
網路頻寬(橫向擴充) 28.8 TB/s 每秒 0.8 TB 每秒 0.4 TB
NVIDIA + HBM4 晶片總數 1,296 30 第 12 名

1. 初步資訊。所有數值皆為最大值,日後可能變更。
2. 高密度規格。
3. 以 Tensor 核心為基礎的模擬演算法所達到的峰值效能。

開始使用

隨時掌握 NVIDIA 最新消息

訂閱以接收 NVIDIA 的最新消息與更新。