資料中心適用的 AI 儲存機制生態系

NVIDIA CMX 情境記憶儲存平台

重塑推論儲存架構，迎接 AI 新領域。

概覽
產品
優勢
生態系
資源
立即開始

概覽
產品
優勢
生態系
資源
立即開始

AI 原生儲存機制大規模加速長情境推論

NVIDIA® CMX™ 情境記憶儲存平台是長情境、多輪互動與代理型 AI 推論用的 AI 原生情境層。它採用 NVIDIA BlueField® ‑4 儲存處理器，透過針對暫時性鍵值 (KV) 快取最佳化的共享式 Pod 級情境層擴充 GPU 記憶體。該平台提供的高頻寬路徑，可降低大規模推論工作負載的延遲、成本與功耗開銷，有助於在 NVIDIA Rubin 平台實現更高的傳輸量與更優異功率效率。

NVIDIA BlueField-4 驅動新型 AI 原生儲存機制，迎接 AI 新領域

NVIDIA CMX 擴充 GPU 容量，並在機架級 AI 系統實現高頻寬 KV 快取共享。相較於傳統儲存機制，它為長情境多輪推論提供的傳輸量更高，功率效率也更優異。

閱讀新聞稿

隆重介紹 NVIDIA BlueField-4 驅動的情境記憶儲存平台，迎接 AI 新領域

NVIDIA CMX 採用 NVIDIA BlueField‑4、DOCA™ 與 Spectrum‑X™ 乙太網路，新增 Pod 級情境記憶層，為長情境的代理型 AI 推論實現更高的傳輸量與功率效率。

閱讀部落格文章

產品

端到端整合的 AI 原生儲存基礎架構

NVIDIA CMX 是運算、網路、儲存與軟體極致的共同設計成果，涵蓋加速的情境記憶架構與安全資料移動機制，以及乙太網路網狀架構和推論框架。

NVIDIA BlueField-4

NVIDIA BlueField 平台的效能、效率與創新突破，是加速 NVIDIA CMX 的推手。BlueField-4 具備高功率效率，負責管理非揮發性記憶體 (NVMe) 固態硬碟 (SSD)、執行儲存服務，以及卸載 KV 快取的資料完整性與加密。其先進的運算功能，以及網路、儲存與安全機制的軟體定義硬體加速器，可為每個工作負載打造安全節能的基礎架構。

運用 NVIDIA BlueField 革新資料中心

NVIDIA DOCA Memos

NVIDIA DOCA Memos 是 BlueField-4 與 CMX 最佳化的 SDK，可跨 AI 運算資源與 CMX 資料節點管理及共享 KV 快取、開放簡單的鍵值 API，並將乙太網路連接的快閃記憶體轉化為 Pod 級快取層。它提供安全的低延遲存取機制，並透過硬體加速的完整性驗證與加密，讓應用保持無狀態，同時由 CMX 負責大規模 KV-快取路由與重複使用。

利用 DOCA Memos 加速 AI 推論

NVIDIA Spectrum-X 乙太網路技術

NVIDIA Spectrum-X 乙太網路提供高效能遠端直接記憶體存取 (RDMA) 網狀架構，可在 Pod 以低延遲且高頻寬的方式存取 AI 原生 KV 快取。Spectrum-X 乙太網路專為 AI 打造，採用先進的壅塞控制、自適應路由，以及無損的聚合乙太網路 RDMA (RoCE)，將抖動與尾端延遲降至最低，在大型多租戶環境實現可重複的一致效能。因此 CMX 能夠以可預測的高效能擴充，為多輪代理型推論工作負載將傳輸量與回應能力最大化。

利用 Spectrum-X 乙太網路擴充 AI 網路

NVIDIA Dynamo

NVIDIA Dynamo 是分散式推論服務框架，可讓 CMX 與底層情境儲存層在整個 Pod 呈現無縫整合，並將請求分配至 KV 快取所在之處。Dynamo 在服務層處理 KV 感知的放置與重複使用，增加每秒產出的 Token 數、縮短產出第一個 Token 的時間，並且讓多輪的多代理工作負載在全 pod 重複使用情境。

利用 NVIDIA Dynamo 加速 AI 推論

產品優勢

長情境 AI 用的加速情境記憶

NVIDIA CMX 引進專用的情境層，相較於傳統儲存法，可提升 KV 快取密集型長情境工作負載的持續傳輸量與功率效率。

重掌千兆級 AI 電力資源

利用高效的 KV 快取最佳化儲存層擴大 AI 服務規模，藉此收回寶貴的電力，釋出更多資料中心電力預算給 GPU，而非傳統儲存裝置。

將 GPU 利用率、傳輸量與回應能力最大化

重複使用 CMX 層預先運算的 KV 快取，無需重新運算，將資料路徑最佳化，並減少停頓。這樣一來，多輪代理型推論每秒產出的 Token 數與傳輸量便大幅提升。CMX 縮短了產出第一個 Token 與最後一個 Token 的時間，因此即使模型、情境視窗與同時處理量增加，答案也能更早開始串流並更快完成輸出。