AI 推論

NVIDIA Dynamo

快速擴充 AI 推論並提供服務。

概覽

AI 作業系統

若要為現今的尖端語言模型高效提供服務,通常需要超過單個 GPU 容量或甚至是整個節點的資源,因此分散式多節點部署對於 AI 推論極為重要。

NVIDIA Dynamo 是分散式推論服務框架,專為在資料中心規模的多節點環境中部署模型而建構。它將各階段推論分散至不同的 GPU,以智慧方式將請求導向適當的 GPU,避免重複運算,並透過資料快取將 GPU 記憶體延伸至符合成本效益的儲存層,將分散式服務化繁為簡並自動化。

NVIDIA NIM™ 微服務將包含 NVIDIA Dynamo 功能,提供快速簡單的部署選項。NVIDIA AI Enterprise 也將支援並提供 NVIDIA Dynamo。

何謂分散式推論?

分散式推論是一種將 AI 模型推論分散到多個運算裝置或節點上執行的過程,透過平行運算來最大化處理量。

這種方法將工作負載分配至各 GPU 或雲端基礎架構,可大規模高效擴充 AI 應用,例如生成式 AI。分散式推論可讓使用者依照各項工作負載獨一無二的需求,將延遲與輸送量最佳化,提升整體效能和資源利用率。

深入瞭解 NVIDIA Dynamo

擴充推理 AI 模型用的低延遲分散式推論框架。

獨立基準測試顯示,相較於 NVIDIA Hopper 架構的系統,GB200 NVL72 搭配 NVIDIA Dynamo 的組合,Mixture-of-Expert (MoE) 模型傳輸量最高提升 15 倍。

GB200 NVL72 透過高速 NVIDIA NVLink™ 連接 72 顆 GPU,實現了攸關 MoE 推理模型的低延遲專家通訊。NVIDIA Dynamo 透過分散式推論,將預填充和解碼階段分散至不同節點,實現獨立最佳化,提升效率。GB200 NVL72 與 NVIDIA Dynamo 共同構成為大規模 MoE 推論最佳化的高效能堆疊。

特色

探索 NVIDIA Dynamo 的功能

分解式服務

將大型語言模型 (LLM) 的上下文處理和生成階段分散至不同的 GPU,實現獨立的 GPU 分配與最佳化,提高每 GPU 可處理的請求。

LLM 感知路由器

高效處理推論流量,儘量減少成本高昂的重複或重疊請求運算,不僅能節省運算資源,還可確保大型 GPU 機隊的負載分配平衡。

KV 快取至儲存裝置

從有限的 GPU 記憶體將 KV 快取立即卸載至符合成本效益的可擴充儲存裝置,例如 CPU RAM、本機 SSD 或網路儲存空間。

拓撲最佳化的 Kubernetes 服務 (Grove)

利用統一的 Kubernetes 自訂資源,在單節點和多節點環境中,實現相互依賴 AI 推論元件的高效擴充和宣告式啟動順序。

GPU 規劃器

監測分散式推論環境的 GPU 容量,並根據不同的上下文階段與生成階段動態分配 GPU 工作單元,解決瓶頸問題並將效能最佳化。

低延遲通訊函式庫 (NIXL)

加快資料在分散式推論環境移動的速度,並簡化在 GPU、CPU、網路與儲存裝置等各種硬體傳輸資料的複雜度。

AIConfigurator

針對模型、GPU 預算和 SLO 推薦最佳的預先填充和解碼配置,以及量身打造的模型平行策略,消除分散式服務叢集需要猜測的狀況。

AIPerf

利用指令列輸出和深入效能報告的詳細指標,對任何推論解決方案執行生成式 AI 模型效能基準測試。

加速分散式推論

NVIDIA Dynamo 完全開源,讓您全權掌控,並且可靈活運用。部署 NVIDIA Dynamo、為它的成長貢獻一己之力,並且將它無縫整合至現有堆疊。

GitHub 一探究竟,成為社群的一員!

優勢

NVIDIA Dynamo 的優勢

從一顆 GPU 無縫擴充為數千顆 GPU

利用易於部署的預先建置工具,簡化及自動處理 GPU 叢集設定,並利用即時的特定 LLM 指標實現動態自動擴充,避免 GPU 資源配置過多或不足。

提高推論服務能力,同時降低成本

利用先進的 LLM 推論服務最佳化功能,例如分解式服務和拓樸感知自動縮放,在不兼顧使用者體驗的情況下,增加推論請求的數量。

打造符合未來需求的 AI 基礎架構,避免成本高昂的移轉過程

您可透過開放式模組化設計,依照自己的獨特需求輕鬆挑選提供推論服務的元件,不僅能確保與現有的 AI 堆疊相容,還可避免成本高昂的專案移轉過程。

加速在正式環境部署新的 AI 模型

NVIDIA Dynamo 支援各大架構,包括 TensorRT-LLM、vLLM、SGLang 與 PyTorch 等,確保您可不受架構後端限制,快速部署新的生成式 AI 模型。

使用案例

利用 NVIDIA Dynamo 部署 AI

瞭解如何利用 NVIDIA Dynamo 推動創新。

提供服務推理模型服務

推理模型為解決複雜的問題,會生成更多 Token,增加推論成本。NVIDIA Dynamo 利用分解式服務這類功能,將推理模型最佳化。這種方法將預先填充和解碼這兩個運算階段分配到不同的 GPU,讓 AI 推論團隊能夠單獨將每個階段最佳化。這樣一來,資源利用率更高、每顆 GPU 處理的查詢量更多,推論成本也更低。NVIDIA Dynamo 與 NVIDIA GB200 NVL72 結合後,複合效能最多提升 15 倍

Kubernetes AI 擴充

由於 AI 模型規模龐大,單一節點無法承載,因此高效提供這類模型服務成為一大難題。分散式推論必須將模型分割到好幾個節點,因此在 Kubernetes 環境協調、擴充與通訊過程複雜度隨之增加。若要確保這些節點以整體方式協同作業,管理過程必須謹慎,尤其是處理動態工作負載時更要小心。NVIDIA Dynamo 為簡化這項工作所採用的 Grove 可順暢處理排程、擴充及提供服務,讓您專注於部署 AI,而非管理基礎架構。

可擴充的 AI 代理

AI 代理與多個模型 (LLM、檢索系統和專用工具) 協同作業時,會即時生成大量 KV 快取。這個 KV 快取往往超過 GPU 記憶體容量,對擴充與效能造成瓶頸。

為了克服 GPU 記憶體限制,將 KV 資料快取至主機記憶體或外部儲存裝置可擴充容量,讓 AI 代理能不受限制擴充。NVIDIA Dynamo 透過 KV Cache Manager 以及與 LMCache 等開源工具整合,簡化了這項工作,確保快取管理高效且 AI 代理效能可擴充。

程式碼生成

程式碼生成通常需要反覆微調,根據模型的回應調整提示、釐清需求或除錯輸出。這道反覆的程序不得不在每個使用者回合重新計算上下文,推論成本勢必增加。NVIDIA Dynamo 讓情境可重複使用,將這個過程最佳化。

NVIDIA Dynamo 的 LLM 感知路由器以智慧方式管理多節點 GPU 叢集上的 KV 快取。它根據快取重疊程度分配請求,然後導向重複使用潛力最高的 GPU。這樣一來便可盡量減少冗餘運算,確保大規模部署的效能均衡。

客戶實證

聆聽業界領導者對 NVIDIA Dynamo 的評價

Cohere

「擴充先進 AI 模型需要精密的多 GPU 排程、無縫協調,以及低延遲通訊庫,才能在各個記憶體與儲存空間無縫傳輸推理的上下文。Dynamo 可望協助我們為企業客戶提供優質的使用者體驗。」

Cohere 工程事業部資深副總裁 Saurabh Baji

Perplexity AI

「我們每個月處理成千上百萬個請求,而 NVIDIA 的 GPU 與推論軟體能滿足我們的業務和使用者對於效能、可靠性與規模的需求。我們很期待利用 Dynamo 及其強化的分散式服務功能,進一步提高推論服務效率,並且滿足新型 AI 推理模型的運算需求。」

Perplexity AI 技術長 Denis Yarats

Together AI

「若要以符合成本效益的方式擴充推理模型,就必須採用先進的新推論技術,包括分解式服務與上下文感知路由。Together AI 運用自專有的推論引擎,締造首屈一指的效能。NVIDIA Dynamo 兼具開源與模組化的特性,因此我們可將它的元件無縫整合到自家引擎,不僅為更多請求提供服務,還能將資源利用率最佳化,讓加速運算的投資發揮最大效益。」

Together AI 技術長 Ce Zhang

客戶案例

產業領導者如何利用 NVIDIA Dynamo 平台強化模型部署

採用者

各行各業的頂尖採用者

資源

NVIDIA 推論最新消息

獲得最新消息

閱讀關於 NVIDIA Dynamo 推論伺服器的最新推論動態與消息。

探索技術部落格文章

閱讀如何開始採用推論的逐步技術解說。

深入探索

取得部署、執行及擴充 AI 模型的訣竅和最佳實務,涵蓋生成式 AI、LLM、推薦系統與電腦視覺等推論應用。

大幅提升 LLM 推論效能

觀看 NVIDIA Dynamo Office Hour 錄影,瞭解如何利用 NVIDIA Dynamo 將 LLM 服務最佳化。瞭解如何在開源模型和推論後端,運用 LLM 感知路由、解構式服務以及動態自動擴充,達到服務層級協議 (SLA) 的要求,並大幅提高互動性與傳輸量。

擴充 LLM 的低延遲分散式推論

瞭解如何利用 NVIDIA Dynamo 部署及擴充推理 LLM。探索分離式預填充和解碼等進階服務技術,瞭解 NVIDIA NIM 如何實現大規模快速部署正式環境就緒的新一代 AI 推論。

Kubernetes 原生 AI 服務

探索 Grove 這個協調複雜 AI 推論工作負載的 Kubernetes 原生解決方案。Grove 是 NVIDIA Dynamo 的一部分,也可獨立部署,透過強大的 API 消弭 AI 框架與 Kubernetes 之間的落差,輕鬆在 Kubernetes 實現可擴充的高效 AI 推論。

快速入門指南

剛接觸 NVIDIA Dynamo,想快速部署您的模型嗎?充分利用這份快速入門指南,展開 NVIDIA Dynamo 之旅。

教學課程

開始使用 NVIDIA Dynamo 時,您可能會有許多疑問。請瀏覽此資源庫,熟悉 NVIDIA Dynamo 的功能,並尋找有助於簡化遷移的指南與範例。

NVIDIA Brev

利用 NVIDIA Brev 在數秒內釋放 NVIDIA GPU 效能,在頂級雲端平台即時存取、自動設定和靈活部署。立即開始建構及擴充 AI 專案。

如何利用 NVIDIA Dynamo AIConfigurator 將 AI 服務最佳化

AIConfigurator 消除了分散式服務需要猜測的狀況。它根據模型、GPU 預算和 SLO,因應效能目標推薦最佳配置。在這段影片,您會瞭解如何開始使用 AIConfigurator。

利用 SGLang 與 NVIDIA Dynamo 擴充推論

觀看錄製的 SGLang × NVIDIA Meetup,透過 SGLang 與 NVIDIA Dynamo 團隊的深入解析,探索大規模推論效能。瞭解最新進展與整合策略,將應用的 AI 推論表現最佳化。

高效 AI 推論的進階技術

這段影片深入探討品質、成本與速度這三大 AI 推論要素,並且說明測試期間擴充對各項因素的影響。瞭解 NVIDIA Dynamo 如何透過解耦技術、KV 卸載和 KV 路由等進階技術,為您提供精確的控制方式,讓您在將大型模型部署最佳化時無須顧此失彼。

後續步驟

準備好開始了嗎?

立即從 GitHub 下載,成為社群的一員!

針對開發人員

探索開始利用 NVIDIA Dynamo 開發所需要的一切資源,包括最新文件、教學課程與技術部落格文章等。

聯絡我們

與 NVIDIA 產品專家討論,瞭解如何利用 NVIDIA AI Enterprise 的安全性、API 穩定性與支援,從前導專案階段邁向正式環境。

閱讀新聞稿 | 閱讀技術部落格文章

獲得最新消息

閱讀關於 Dynamo 推論伺服器的最新推論動態與消息。

探索技術部落格文章

閱讀如何開始採用推論的逐步技術解說。

深入探索

取得部署、執行及擴充 AI 模型的訣竅和最佳實務,涵蓋生成式 AI、LLM、推薦系統與電腦視覺等推論應用。

部署、最佳化並為 LLM 建立基準測試

透過逐步說明,學習如何高效提供 LLM 服務。我們將介紹如何在多個後端輕鬆部署 LLM、比較其效能,並且說明如何微調部署配置,實現最佳效能。

將企業 AI 使用案例從開發階段推進至正式環境

瞭解何謂 AI 推論及其如何配合貴企業的 AI 策略發揮效益、部署企業級 AI 使用案例的關鍵挑戰、為何需要完整堆疊的 AI 推論解決方案才能解決這些難題、全方位平台的主要元素,以及如何部署第一個 AI 推論解決方案。

駕馭雲端就緒 AI 推論解決方案的效能

探索 NVIDIA AI 推論平台如何與各大雲端服務供應商無縫整合,簡化部署並加速發布 LLM 驅動的 AI 使用案例。

快速入門指南

剛接觸 NVIDIA Dynamo,想快速部署您的模型嗎?充分利用這份快速入門指南,展開您的 Dynamo 之旅。

教學課程

開始使用 Dynamo 時,您可能會有許多疑問。請瀏覽此資源庫,熟悉 Dynamo 的功能,並尋找有助於簡化遷移的指南與範例。

NVIDIA LaunchPad

在實作實驗室利用 NVIDIA Dynamo 體驗迅速可擴充的 AI。您可立即享受 NVIDIA 加速運算基礎架構的效益,擴充 AI 工作負載。

Dynamo 簡化推論的五大理由

NVIDIA Dynamo 推論伺服器簡化了大規模 AI 模型在生產環境中的部署,讓團隊能從任何框架,透過本地儲存或雲端平台,在任何 GPU 或 CPU 架構上部署已訓練的 AI 模型。

利用 Dynamo 部署 HuggingFace 的 Stable Diffusion 流程

這個影片展示如何部署 HuggingFace diffuser 函式庫提供的 Stable Diffusion 流程。我們使用 Dynamo 推論伺服器部署及執行流程。

開始使用 NVIDIA Dynamo 推論伺服器

Dynamo 推論伺服器這個開源推論解決方案將模型部署標準化,在正式環境實現快速可擴充的 AI。由於功能眾多,不曉得該從何著手嗎?立即觀看影片,瞭解更多。