NVIDIA Vera Rubin 的推論加速器。
概覽
過去,AI 推論架構若要提供互動性與智慧,通常只能在以下兩者之間做取捨,犧牲傳輸量來獲得互動性與智慧,或為了傳輸量與智慧而犧牲互動性。無法三者兼得。代理系統的需求提升。
NVIDIA Groq 3 LPX 是專為 NVIDIA Vera Rubin 平台打造的推論加速器,專為滿足代理系統對低延遲與大量上下文的需求而設計。Vera Rubin 與 LPX 採用共同設計的架構,結合了 NVIDIA Rubin GPU 與 LPU 的極致效能。
推論效能
透過結合 Rubin GPU 的高頻寬記憶體 (HBM) 與 LPU 的靜態隨機存取記憶體 (SRAM),配備 LPX 的 NVIDIA Vera Rubin 平台為兆級參數 (Trillion-parameter) 模型與百萬級 Token 上下文,開創了全新層級的推論效能。在與 Vera Rubin NVL72 一同部署時,Rubin GPU 與 LPU 透過針對每個輸出 Token 協同運算 AI 模型的每一層,大幅提升了解碼速度。
代理系統消耗的 Token,最高可達傳統 AI 應用程式的 15 倍。AI 工廠必須以低延遲與高效的經濟效益,提供 Token 運算量以及處理海量的上下文視窗。Vera Rubin 搭配 LPX,可為兆級參數模型提供最高 35 倍的每兆瓦傳輸量。
代理程式是智慧的單位,而推論是其燃料。為了創造實際影響力,代理系統需要快速又智慧的 Token。當 LPX 與 NVIDIA Vera Rubin 結合時,其提升的「每瓦吞吐量」與 Token 效能,將開啟超高效能推論的新層次,支持兆級參數模型與百萬級上下文,為所有 AI 供應商拓展全新的營收獲利空間。
技術突破
NVIDIA Vera Rubin NVL72 透過高協作設計,將七顆專用晶片整合成一台 AI 超級電腦。
在一個 LPX 機架中,256 顆 LPU 晶片整合後提供極高效能。
在每個機架中,LPX 提供 128 GB SRAM 用於低延遲處理,12 TB DDR5 記憶體用於大型模型與工作負載。
每個機架提供 40 PB/s 的 SRAM 頻寬,確保提供低延遲。
晶片到晶片的直接連結可在整個 LPX 機架提供 640 TB/s 的垂直擴充頻寬,支援 LPX 機架內的低延遲晶片通訊。
LPX 與 NVL72 的高速連線能力,將延遲降低至接近零。
LPX 運用 NVIDIA MGX™ 擷取、轉換和載入 (ETL) 機架,讓 Token 工廠在部署 NVIDIA Vera Rubin 平台時,能規劃並採用單一通用機架 (Universal Rack)。
訂閱以接收 NVIDIA 的最新消息與更新。