NVIDIA Groq 3 LPX

NVIDIA Vera Rubin 的推論加速器。

概覽

速度與規模兼具

過去,AI 推論架構若要提供互動性與智慧,通常只能在以下兩者之間做取捨,犧牲傳輸量來獲得互動性與智慧,或為了傳輸量與智慧而犧牲互動性。無法三者兼得。代理系統的需求提升。

NVIDIA Groq 3 LPX 是專為 NVIDIA Vera Rubin 平台打造的推論加速器,專為滿足代理系統對低延遲與大量情境內容的需求而設計。Vera Rubin 與 LPX 採用共同設計的架構,結合了 NVIDIA Rubin GPU 與 LPU 的極致效能。

NVIDIA Vera Rubin 開啟代理式 AI 新疆界

NVIDIA Vera Rubin 平台的七款全新晶片已全面量產,旨在擴展全球規模最大的 AI 工廠。

深入了解 NVIDIA Groq 3 LPX:NVIDIA Vera Rubin 平台的第七款晶片

NVIDIA Groq 3 LPX 透過具備確定性 (Deterministic) 且低延遲的 Token 生成能力,進一步延伸了 AI 工廠的效能。能與 NVIDIA Rubin GPU 完美互補,共同應對即時推論 (Real-time inference) 工作負載。

推論效能

極低延遲,龐大傳輸量

透過結合 Rubin GPU 的高頻寬記憶體 (HBM) 與 LPU 的靜態隨機存取記憶體 (SRAM),配備 LPX 的 NVIDIA Vera Rubin 平台為兆級參數 (Trillion-parameter) 模型與百萬級 Token 情境,開創了全新層級的推論效能。在與 Vera Rubin NVL72 一同部署時,Rubin GPU 與 LPU 透過針對每個輸出 Token 協同運算 AI 模型的每一層,大幅提升了解碼速度。

兆級參數模型的傳輸量提升 35 倍

代理系統消耗的 Token,最高可達傳統 AI 應用程式的 15 倍。AI 工廠必須以低延遲與高效的經濟效益,提供 Token 運算量以及處理海量的情境視窗。Vera Rubin NVL72 搭配 LPX 時,可為兆參數模型提供高達 35 倍的每兆瓦 (MW) 傳輸量。

TPS:每秒 Token 量。此為預測效能,之後可能會有所變動。免費方案($0):Qwen-3 2350 億參數模型,支援 3.2 萬鍵值 (KV) 快取 Token。中階方案 ($3):Kimi K2.5 一兆參數模型,支援 12.8 萬鍵值 (KV) 快取 Token。高階方案 ($6):GPT-MoE 兩兆參數的模型,支援 12.8 萬鍵值 (KV) 快取 Token。頂級方案 ($45) 與超級方案 ($150) 方案:GPT-MoE 兩兆參數模型,支援 40 萬鍵值 (KV) 快取 Token。


全新類別的推論:10 倍收益機會

代理程式是智慧的單位,而推論是其燃料。為了實現真實世界的價值,代理式系統需要具備高價值、更快速且內含更多情境的 Token。當 LPX 與 Vera Rubin 結合時,AI 工廠將能大規模生產頂級 (Premium) Token,並釋放高達 10 倍的每瓦營收。

依據 AI 工廠每吉瓦傳輸量與每百萬 Token 成本的分級定價模型所推算的預估營收。

NVIDIA Groq 3 LPU 推論加速器

NVIDIA Groq 3 LPU 是 Groq 新一代的創新語言處理單元。每個 LPX 機架搭載 256 個互連 LPU 加速器,搭配 NVIDIA Vera Rubin 平台,可大幅強化推論能力。每個 LPU 加速器提供 500 MB 的 SRAM、150 TB/s 的 SRAM 頻寬,以及 2.5 TB/s 的垂直擴充頻寬。

NVIDIA Groq 3 LPU 推論加速器

NVIDIA Groq 3 LPU 是 Groq 新一代的創新語言處理單元。每個 LPX 機架搭載 256 個互連 LPU 加速器,搭配 NVIDIA Vera Rubin 平台,可大幅強化推論能力。每個 LPU 加速器提供 500 MB 的 SRAM、150 TB/s 的 SRAM 頻寬,以及 2.5 TB/s 的垂直擴充頻寬。

技術突破

極致的共同設計。卓越成果。

NVIDIA Vera Rubin NVL72 透過高協作設計,將七顆專用晶片整合成一台 AI 超級電腦。

機架規模

在一個 LPX 機架中,256 顆 LPU 晶片整合後提供極高效能。

Fusion 記憶體架構

在每個機架中,LPX 提供 128 GB SRAM 用於低延遲處理,12 TB DDR5 記憶體用於大型模型與工作負載。

高傳輸速度 SRAM

每個機架提供 40 PB/s 的 SRAM 頻寬,確保提供低延遲。

巨量垂直擴充頻寬

晶片到晶片的直接連結可在整個 LPX 機架提供 640 TB/s 的垂直擴充頻寬,支援 LPX 機架內的低延遲晶片通訊。

透過 NVIDIA NVL72 實現高速連線

LPX 與 NVL72 的高速連線能力,將延遲降低至接近零。

NVIDIA MGX ETL 機架

LPX 運用 NVIDIA MGX™ 擷取、轉換和載入 (ETL) 機架,讓 Token 工廠在部署 NVIDIA Vera Rubin 平台時,能規劃並採用單一通用機架 (Universal Rack)。

立即開始

隨時掌握 NVIDIA 最新消息

訂閱以接收 NVIDIA 的最新消息與更新。