打造代理 AI 的前沿新紀元
概覽
NVIDIA Vera Rubin NVL72 整合 NVIDIA 的前瞻技術,包含 72 個 Rubin GPU、36 顆 Vera CPU、ConnectX®-9 SuperNIC™ 以及 BlueField®-4 DPU。該機櫃級平台透過 NVIDIA NVLink™ 6 交換器實現內部擴充,並透過 NVIDIA Quantum-X800 InfiniBand 與 Spectrum-X™ 乙太網路實現外部擴充,大規模驅動 AI 工業革命。當與 NVIDIA Groq 3 LPX 機櫃協同部署時,Vera Rubin NVL72 能針對兆級參數模型與百萬標記 (Token) 上下文提供全新等級的推論效能。
Vera Rubin NVL72 基於第三代 NVIDIA MGX™ NVL72 機櫃設計打造,提供與前代產品之間的無縫銜接。與 NVIDIA Blackwell 相比,它僅需四分之一的 GPU 即可完成 AI 訓練,且每百萬標記的 AI 推論成本僅需十分之一。這款機櫃級 AI 超級電腦採用無電纜模組化托盤設計,並獲得超過 80 家 MGX 生態系夥伴支援,在提供世界級效能的同時實現快速部署
效能
LLM 推論效能可能會有所變更。根據使用 32K/8K ISL/OSL 的 Kimi-K2 思考模型,比較 NVIDIA GB200 NVL72 與 NVIDIA Vera Rubin NVL72 每 100 萬個 Token 的成本。
NVIDIA Vera Rubin NVL72 每百萬 Token 的成本僅為 NVIDIA GB200 NVL72 的十分之一,實現高度互動、深度推理的代理 AI。
NVIDIA Vera Rubin NVL72 每兆瓦能提供高達十倍 NVIDIA GB200 NVL72 的 Token 數量,在相同的功耗下擴展智慧。
LLM 推論效能可能會有所變更。根據使用 32K/8K ISL/OSL 的 Kimi-K2 思考模型,比較 NVIDIA GB200 NVL72 與 NVIDIA Vera Rubin NVL72 的每秒每兆瓦 Token 數量。
此為預測效能,之後可能會有所變動。採用 10T MoE 模型的 GPU 數量,在 1 個月的固定時限內,使用 100T Token 進行訓練,比較 NVIDIA GB200 NVL72 與 NVIDIA Vera Rubin NVL72。
NVIDIA Vera Rubin NVL72 訓練mixture-of-experts (MoE) 模型時,GPU 數量僅為 NVIDIA GB200 NVL72 的四分之一。
代理系統消耗的 Token,最高可達傳統 AI 應用程式的 15 倍。AI 工廠必須以低延遲與高效的經濟效益,提供 Token 運算量以及處理海量的上下文視窗。Vera Rubin NVL72 搭配 LPX 時,可為兆參數模型提供高達 35 倍的每兆瓦傳輸量。
此為預測效能,之後可能會有所變動。免費方案($0):Qwen-3 2,350 億參數模型,搭配 32K KV 快取詞元。中階方案($3):Kimi K2.5 1 兆級參數模型,搭配 128K KV 快取詞元。高階方案($6):GPT-MoE 2 兆級參數模型,搭配 128K KV 快取詞元。尊榮方案($45)與旗艦方案($150):GPT-MoE 2 兆級參數模型,搭配 400K KV 快取詞元。
推動 AI 代理程式時代
規格¹
| NVIDIA Vera Rubin NVL72 | NVIDIA Vera Rubin 超級晶片 | NVIDIA Rubin GPU | |
|---|---|---|---|
| 配置 | 72 顆 NVIDIA Rubin GPU | 36 顆 NVIDIA Vera CPU | 2 顆 Rubin GPU | 1 顆 Vera CPU | 1 顆 Rubin GPU |
| NVFP4 推論 | 3,600 PFLOPS | 100 PFLOPS | 50 PFLOPS |
| NVFP4² 訓練 | 2,520 PFLOPS | 70 PFLOPS | 35 PFLOPS |
| FP8/FP6² 訓練 | 1,260 PFLOPS | 35 PFLOPS | 17.5 個 PFLOPS |
| INT8² Dense | 18 POPS | 500 TOPS | 250 TOPS |
| FP16/BF16² Dense | 288 PFLOPS | 8 PFLOPS | 4 PFLOPS |
| TF32² Dense | 144 PFLOPS | 4 PFLOPS | 2 個 PFLOPS |
| FP32 | 9,360 TFLOPS | 260 每秒浮點運算次數 | 130 每秒浮點運算次數 |
| FP64 | 2,400 TFLOPS | 67 TFLOPS | 33 每秒浮點運算次數 |
| FP32 SGEMM³ | 28,800 每秒浮點運算次數 | 800 每秒浮點運算次數 | 400 每秒浮點運算次數 |
| FP64 DGEMM³ | 14,400 TFLOPS | 400 每秒浮點運算次數 | 200 每秒浮點運算次數 |
| GPU 記憶體 | 頻寬 | 20.7 TB HBM4 | 1,580 TB/s | 576 GB HBM4 | 44 TB/s | 288 GB HBM4 | 22 TB/s |
| NVIDIA NVLink | 第六代 | ||
| NVLink 頻寬 | 每秒 260 TB (NVLink 6 交換器頻寬) |
每秒 7.2 TB | 每秒 3.6 TB |
| NVLink-C2C 頻寬 | 65 TB/s | 每秒 1.8 TB | - |
| CPU 核心數量 | 3,168 個自訂 NVIDIA Olympus 核心 (與 Arm® 相容) | 88 個自訂 NVIDIA Olympus 核心 (與 Arm® 相容) | - |
| CPU 記憶體 | 54 TB LPDDR5X | 1.5 TB LPDDR5X | - |
| 網路頻寬(橫向擴充) | 28.8 TB/s | 每秒 0.8 TB | 每秒 0.4 TB |
| NVIDIA + HBM4 晶片總數 | 1,296 | 30 | 第 12 名 |
1. 初步資訊。所有數值皆為最大值,日後可能變更。
2. 高密度規格。
3. 以 Tensor 核心為基礎的模擬演算法所達到的峰值效能。
開始使用
訂閱以接收 NVIDIA 的最新消息與更新。