NVIDIA Groq 3 LPX

NVIDIA Vera Rubin 的推論加速器。

閱讀新聞稿

概覽
效能
技術突破
立即開始

概覽
效能
技術突破
立即開始

閱讀新聞稿

概覽

速度與規模兼具

過去，AI 推論架構若要提供互動性與智慧，通常只能在以下兩者之間做取捨，犧牲傳輸量來獲得互動性與智慧，或為了傳輸量與智慧而犧牲互動性。無法三者兼得。代理系統的需求提升。

NVIDIA Groq 3 LPX 是專為 NVIDIA Vera Rubin 平台打造的推論加速器，專為滿足代理系統對低延遲與大量上下文的需求而設計。Vera Rubin 與 LPX 採用共同設計的架構，結合了 NVIDIA Rubin GPU 與 LPU 的極致效能。

NVIDIA Vera Rubin 開啟代理式 AI 新疆界

NVIDIA Vera Rubin 平台的七款全新晶片已全面量產，旨在擴展全球規模最大的 AI 工廠。

閱讀新聞稿

深入瞭解 NVIDIA Groq 3 LPX：NVIDIA Vera Rubin 平台的第七款晶片

NVIDIA Groq 3 LPX 透過具備確定性 (Deterministic) 且低延遲的 Token 生成能力，進一步延伸了 AI 工廠的效能。它能與 NVIDIA Rubin GPU 完美互補，共同應對即時推論 (Real-time inference) 工作負載。

閱讀技術部落格文章

推論效能

極低延遲，龐大傳輸量

透過結合 Rubin GPU 的高頻寬記憶體 (HBM) 與 LPU 的靜態隨機存取記憶體 (SRAM)，配備 LPX 的 NVIDIA Vera Rubin 平台為兆級參數 (Trillion-parameter) 模型與百萬級 Token 上下文，開創了全新層級的推論效能。在與 Vera Rubin NVL72 一同部署時，Rubin GPU 與 LPU 透過針對每個輸出 Token 協同運算 AI 模型的每一層，大幅提升了解碼速度。

兆級參數模型的傳輸量提升 35 倍

代理系統消耗的 Token，最高可達傳統 AI 應用程式的 15 倍。AI 工廠必須以低延遲與高效的經濟效益，提供 Token 運算量以及處理海量的上下文視窗。Vera Rubin 搭配 LPX，可為兆級參數模型提供最高 35 倍的每兆瓦傳輸量。

全新類別的推論：10 倍收益機會

代理程式是智慧的單位，而推論是其燃料。為了創造實際影響力，代理系統需要快速又智慧的 Token。當 LPX 與 NVIDIA Vera Rubin 結合時，其提升的「每瓦吞吐量」與 Token 效能，將開啟超高效能推論的新層次，支持兆級參數模型與百萬級上下文，為所有 AI 供應商拓展全新的營收獲利空間。

兆級參數模型的傳輸量提升 35 倍

代理系統消耗的 Token，最高可達傳統 AI 應用程式的 15 倍。Token 工廠必須在維持低延遲與高成本效益的前提下，提供龐大的 Token 生成量與海量上下文視窗。Vera Rubin 搭配 LPX，可為兆級參數模型提供最高 35 倍的每兆瓦傳輸量。

全新類別的推論：10 倍收益機會

代理程式是智慧的單位，而推論是其燃料。為了實現真實世界的價值，代理式系統需要具備高價值、更快速且內含更多上下文的 Token。當 LPX 與 Vera Rubin 結合時，AI 工廠將能大規模生產頂級 (Premium) Token，並釋放高達 10 倍的每瓦營收。

NVIDIA Groq 3 LPU 推論加速器

NVIDIA Groq 3 LPU 是 Groq 新一代的創新語言處理單元。每個 LPX 機架搭載 256 個互連 LPU 加速器，搭配 NVIDIA Vera Rubin 平台，可大幅強化推論能力。每個 LPU 加速器提供 500 MB 的 SRAM、150 TB/s 的 SRAM 頻寬，以及 2.5 TB/s 的垂直擴充頻寬。