NVIDIA Dynamo 是開源模組化推論架構,可在分散式環境提供生成式人工智慧模型服務。這個架構可在大型 GPU 機隊,讓推論工作負載可動態調度資源、以智慧方式處理請求、將記憶體管理最佳化,並加速資料傳輸,實現無縫擴展。
NVIDIA Dynamo 在 NVIDIA GB200 NVL72 提供開源的 DeepSeek-R1 671B 推論模型服務時,服務的請求數量增加高達 30 倍,對於希望儘可能降低成本,並將 Token 收益最大化的人工智慧工廠而言是理想的解決方案。
NVIDIA Dynamo 支援各大人工智慧推論後端,具有大型語言模型 (LLM) 專屬的最佳化功能,例如分解式服務,以最低的成本和最高的效率加速及擴展人工智慧推論模型,並在日後的新版 NVIDIA AI Enterprise 獲得支援。
將 LLM 上下文 (預先填充) 階段與生成 (解碼) 階段,分配到不同的 GPU 處理,實現量身打造的模型平行化與獨立的 GPU 配置,進而增加每顆 GPU 處理的請求數量。
監測分散式推論環境的 GPU 容量,並根據不同的上下文階段與生成階段動態分配 GPU 工作單元,解決瓶頸問題並將效能最佳化。
高效處理推論流量,儘量減少成本高昂的重複或重疊請求運算,不僅能節省運算資源,還可確保大型 GPU 機隊的負載分配平衡。
加快資料在分散式推論環境移動的速度,並簡化在 GPU、CPU、網路與儲存裝置等各種硬體傳輸資料的複雜度置。
利用易於部署的預先建置工具,簡化及自動處理 GPU 叢集設定,並利用即時的特定 LLM 指標實現動態自動擴展,避免 GPU 資源配置過多或不足。
利用先進的 LLM 推論服務最佳化功能,例如分解式服務,在不兼顧使用者體驗的情況下,增加推論請求的數量。
您可透過開放式模組化設計,依照自己的獨特需求輕鬆挑選提供推論服務的元件,不僅能確保與現有的人工智慧堆疊相容,還可避免成本高昂的專案移轉過程。
NVIDIA Dynamo 支援各大架構,包括 TensorRT-LLM、vLLM、SGLang 與 PyTorch 等,確保您可不受架構後端限制,快速部署新的生成式人工智慧模型。
NVIDIA Dynamo 完全開源,讓您全權掌控,並且可靈活運用。部署 NVIDIA Dynamo、為它的成長貢獻一己之力,並且將它無縫整合至現有堆疊。
在 GitHub 一探究竟,成為社群的一員!
瞭解如何利用 NVIDIA Dynamo 推動創新。
推理模型為解決複雜的問題,會生成更多 Token,增加推論成本。NVIDIA Dynamo 利用分解式服務這類功能,將推理模型最佳化。這種方法將預先填充和解碼這兩個運算階段分配到不同的 GPU,讓人工智慧推論團隊能夠單獨將每個階段最佳化。這樣一來,資源利用率更高、每顆 GPU 處理的查詢量更多,推論成本也更低。
由於人工智慧模型規模龐大,單一節點無法承載,因此高效提供這類模型服務成為一大難題。分散式推論必須將模型分割到好幾個節點,因此協調、擴展與通訊過程複雜度隨之增加。若要確保這些節點以整體方式協同作業,管理過程必須謹慎,尤其是處理動態工作負載時更要小心。NVIDIA Dynamo 在 Kubernetes 提供預先建置的功能,簡化這道程序,並且無縫處理排程、擴展與服務提供,讓您無須費心管理基礎架構,可以專心部署人工智慧。
人工智慧代理仰賴多個模型即時同步作業,包括 LLM、檢索系統與專用工具。擴展這類代理是一大挑戰,過程複雜,需要智慧型 GPU 排程、高效的 KV 快取管理,以及超低延遲通訊,才能維持回應能力。
NVIDIA Dynamo 內建智慧型 GPU 規劃器、智慧路由器,以及低延遲通訊庫,簡化這道程序,可無縫高效擴展人工智慧代理。
程式碼生成通常需要反覆微調,根據模型的回應調整提示、釐清需求或除錯輸出。這道反覆的程序不得不在每個使用者回合重新計算上下文,推論成本勢必增加。NVIDIA Dynamo 可重複使用上下文,將工作負載卸載到符合成本效益的記憶體,儘可能減少昂貴的重新計算,降低整體推論成本。
立即從 GitHub 下載,成員社群的一員!
探索開始利用 NVIDIA Dynamo 開發所需要的一切資源,包括最新文件、教學課程與技術部落格等。
與 NVIDIA 產品專家討論,瞭解如何利用 NVIDIA AI Enterprise 的安全性、API 穩定性與支援,從前導專案階段邁向正式環境。