若要為現今的尖端語言模型高效提供服務,通常需要超過單個 GPU 容量或甚至是整個節點的資源,因此分散式多節點部署對於 AI 推論極為重要。
NVIDIA Dynamo 是分散式推論服務框架,專為在資料中心規模的多節點環境中部署模型而建構。它將各階段推論分散至不同的 GPU,以智慧方式將請求導向適當的 GPU,避免重複運算,並透過資料快取將 GPU 記憶體延伸至符合成本效益的儲存層,將分散式服務化繁為簡並自動化。
NVIDIA NIM™ 微服務將包含 NVIDIA Dynamo 功能,提供快速簡單的部署選項。NVIDIA AI Enterprise 也將支援並提供 NVIDIA Dynamo。
擴充推理 AI 模型用的低延遲分散式推論框架。
獨立基準測試顯示,相較於 NVIDIA Hopper 架構的系統,GB200 NVL72 搭配 NVIDIA Dynamo 的組合,Mixture-of-Expert (MoE) 模型傳輸量最高提升 15 倍。
GB200 NVL72 透過高速 NVIDIA NVLink™ 連接 72 顆 GPU,實現了攸關 MoE 推理模型的低延遲專家通訊。NVIDIA Dynamo 透過分散式推論,將預填充和解碼階段分散至不同節點,實現獨立最佳化,提升效率。GB200 NVL72 與 NVIDIA Dynamo 共同構成為大規模 MoE 推論最佳化的高效能堆疊。
NVIDIA Dynamo 完全開源,讓您全權掌控,並且可靈活運用。部署 NVIDIA Dynamo、為它的成長貢獻一己之力,並且將它無縫整合至現有堆疊。
在 GitHub 一探究竟,成為社群的一員!
利用易於部署的預先建置工具,簡化及自動處理 GPU 叢集設定,並利用即時的特定 LLM 指標實現動態自動擴充,避免 GPU 資源配置過多或不足。
利用先進的 LLM 推論服務最佳化功能,例如分解式服務和拓樸感知自動縮放,在不兼顧使用者體驗的情況下,增加推論請求的數量。
您可透過開放式模組化設計,依照自己的獨特需求輕鬆挑選提供推論服務的元件,不僅能確保與現有的 AI 堆疊相容,還可避免成本高昂的專案移轉過程。
NVIDIA Dynamo 支援各大架構,包括 TensorRT-LLM、vLLM、SGLang 與 PyTorch 等,確保您可不受架構後端限制,快速部署新的生成式 AI 模型。
瞭解如何利用 NVIDIA Dynamo 推動創新。
推理模型為解決複雜的問題,會生成更多 Token,增加推論成本。NVIDIA Dynamo 利用分解式服務這類功能,將推理模型最佳化。這種方法將預先填充和解碼這兩個運算階段分配到不同的 GPU,讓 AI 推論團隊能夠單獨將每個階段最佳化。這樣一來,資源利用率更高、每顆 GPU 處理的查詢量更多,推論成本也更低。NVIDIA Dynamo 與 NVIDIA GB200 NVL72 結合後,複合效能最多提升 15 倍。
由於 AI 模型規模龐大,單一節點無法承載,因此高效提供這類模型服務成為一大難題。分散式推論必須將模型分割到好幾個節點,因此在 Kubernetes 環境協調、擴充與通訊過程複雜度隨之增加。若要確保這些節點以整體方式協同作業,管理過程必須謹慎,尤其是處理動態工作負載時更要小心。NVIDIA Dynamo 為簡化這項工作所採用的 Grove 可順暢處理排程、擴充及提供服務,讓您專注於部署 AI,而非管理基礎架構。
AI 代理與多個模型 (LLM、檢索系統和專用工具) 協同作業時,會即時生成大量 KV 快取。這個 KV 快取往往超過 GPU 記憶體容量,對擴充與效能造成瓶頸。
為了克服 GPU 記憶體限制,將 KV 資料快取至主機記憶體或外部儲存裝置可擴充容量,讓 AI 代理能不受限制擴充。NVIDIA Dynamo 透過 KV Cache Manager 以及與 LMCache 等開源工具整合,簡化了這項工作,確保快取管理高效且 AI 代理效能可擴充。
程式碼生成通常需要反覆微調,根據模型的回應調整提示、釐清需求或除錯輸出。這道反覆的程序不得不在每個使用者回合重新計算上下文,推論成本勢必增加。NVIDIA Dynamo 讓情境可重複使用,將這個過程最佳化。
NVIDIA Dynamo 的 LLM 感知路由器以智慧方式管理多節點 GPU 叢集上的 KV 快取。它根據快取重疊程度分配請求,然後導向重複使用潛力最高的 GPU。這樣一來便可盡量減少冗餘運算,確保大規模部署的效能均衡。
「擴充先進 AI 模型需要精密的多 GPU 排程、無縫協調,以及低延遲通訊庫,才能在各個記憶體與儲存空間無縫傳輸推理的上下文。Dynamo 可望協助我們為企業客戶提供優質的使用者體驗。」
Cohere 工程事業部資深副總裁 Saurabh Baji
「我們每個月處理成千上百萬個請求,而 NVIDIA 的 GPU 與推論軟體能滿足我們的業務和使用者對於效能、可靠性與規模的需求。我們很期待利用 Dynamo 及其強化的分散式服務功能,進一步提高推論服務效率,並且滿足新型 AI 推理模型的運算需求。」
Perplexity AI 技術長 Denis Yarats。
「若要以符合成本效益的方式擴充推理模型,就必須採用先進的新推論技術,包括分解式服務與上下文感知路由。Together AI 運用自專有的推論引擎,締造首屈一指的效能。NVIDIA Dynamo 兼具開源與模組化的特性,因此我們可將它的元件無縫整合到自家引擎,不僅為更多請求提供服務,還能將資源利用率最佳化,讓加速運算的投資發揮最大效益。」
Together AI 技術長 Ce Zhang。
立即從 GitHub 下載,成為社群的一員!
探索開始利用 NVIDIA Dynamo 開發所需要的一切資源,包括最新文件、教學課程與技術部落格文章等。
與 NVIDIA 產品專家討論,瞭解如何利用 NVIDIA AI Enterprise 的安全性、API 穩定性與支援,從前導專案階段邁向正式環境。