人工智慧推論

NVIDIA Dynamo

加速擴展及提供生成式人工智慧服務。

概覽

低延遲的分散式
人工智慧推論

NVIDIA Dynamo 是開源模組化推論架構,可在分散式環境提供生成式人工智慧模型服務。這個架構可在大型 GPU 機隊,讓推論工作負載可動態調度資源、以智慧方式處理請求、將記憶體管理最佳化,並加速資料傳輸,實現無縫擴展。

NVIDIA Dynamo 在 NVIDIA GB200 NVL72 提供開源的 DeepSeek-R1 671B 推論模型服務時,服務的請求數量增加高達 30 倍,對於希望儘可能降低成本,並將 Token 收益最大化的人工智慧工廠而言是理想的解決方案。

NVIDIA Dynamo 支援各大人工智慧推論後端,具有大型語言模型 (LLM) 專屬的最佳化功能,例如分解式服務,以最低的成本和最高的效率加速及擴展人工智慧推論模型,並在日後的新版 NVIDIA AI Enterprise 獲得支援。

何謂分散式推論?

分散式推論這個程序,透過平行化運算,在多部運算裝置或多個節點執行人工智慧模型推論。

這種方法將工作負載分配至各 GPU 或雲端基礎架構,可大規模高效擴展人工智慧應用,例如生成式人工智慧。分散式推論可讓使用者依照各項工作負載獨一無二的需求,將延遲與輸送量最佳化,提升整體效能和資源利用率。

功能

探索 NVIDIA Dynamo 的功能

分解式服務

將 LLM 上下文 (預先填充) 階段與生成 (解碼) 階段,分配到不同的 GPU 處理,實現量身打造的模型平行化與獨立的 GPU 配置,進而增加每顆 GPU 處理的請求數量。

GPU 規劃器

監測分散式推論環境的 GPU 容量,並根據不同的上下文階段與生成階段動態分配 GPU 工作單元,解決瓶頸問題並將效能最佳化。

智慧路由器

高效處理推論流量,儘量減少成本高昂的重複或重疊請求運算,不僅能節省運算資源,還可確保大型 GPU 機隊的負載分配平衡。

低延遲通訊庫

加快資料在分散式推論環境移動的速度,並簡化在 GPU、CPU、網路與儲存裝置等各種硬體傳輸資料的複雜度置。

優勢

NVIDIA Dynamo 的優勢

從一顆 GPU 無縫擴展為數千顆 GPU

利用易於部署的預先建置工具,簡化及自動處理 GPU 叢集設定,並利用即時的特定 LLM 指標實現動態自動擴展,避免 GPU 資源配置過多或不足。

提高推論服務能力,同時降低成本

利用先進的 LLM 推論服務最佳化功能,例如分解式服務,在不兼顧使用者體驗的情況下,增加推論請求的數量。

打造符合未來需求的人工智慧基礎架構,避免成本高昂的移轉過程

您可透過開放式模組化設計,依照自己的獨特需求輕鬆挑選提供推論服務的元件,不僅能確保與現有的人工智慧堆疊相容,還可避免成本高昂的專案移轉過程。

加速在正式環境部署新的人工智慧模型

NVIDIA Dynamo 支援各大架構,包括 TensorRT-LLM、vLLM、SGLang 與 PyTorch 等,確保您可不受架構後端限制,快速部署新的生成式人工智慧模型。

加速分散式推論

NVIDIA Dynamo 完全開源,讓您全權掌控,並且可靈活運用。部署 NVIDIA Dynamo、為它的成長貢獻一己之力,並且將它無縫整合至現有堆疊。

GitHub 一探究竟,成為社群的一員!

開發

適用於想要取得 Triton 推論伺服器開放原始碼以進行開發的使用者。

開發

適用於想要使用免費 Triton 推論伺服器容器進行開發的使用者。

體驗

取用 NVIDIA LaunchPad 免費提供的 NVIDIA 託管的基礎架構,以及包含逐步指導及範例的實作實驗室。

部署

利用現有基礎架構,獲得免費授權,試用 NVIDIA AI Enterprise 90 天。

使用案例

利用 NVIDIA Dynamo 部署人工智慧

瞭解如何利用 NVIDIA Dynamo 推動創新。

提供服務推理模型服務

推理模型為解決複雜的問題,會生成更多 Token,增加推論成本。NVIDIA Dynamo 利用分解式服務這類功能,將推理模型最佳化。這種方法將預先填充和解碼這兩個運算階段分配到不同的 GPU,讓人工智慧推論團隊能夠單獨將每個階段最佳化。這樣一來,資源利用率更高、每顆 GPU 處理的查詢量更多,推論成本也更低。

分散式推論

由於人工智慧模型規模龐大,單一節點無法承載,因此高效提供這類模型服務成為一大難題。分散式推論必須將模型分割到好幾個節點,因此協調、擴展與通訊過程複雜度隨之增加。若要確保這些節點以整體方式協同作業,管理過程必須謹慎,尤其是處理動態工作負載時更要小心。NVIDIA Dynamo 在 Kubernetes 提供預先建置的功能,簡化這道程序,並且無縫處理排程、擴展與服務提供,讓您無須費心管理基礎架構,可以專心部署人工智慧。

可擴展的人工智慧代理

人工智慧代理仰賴多個模型即時同步作業,包括 LLM、檢索系統與專用工具。擴展這類代理是一大挑戰,過程複雜,需要智慧型 GPU 排程、高效的 KV 快取管理,以及超低延遲通訊,才能維持回應能力。
NVIDIA Dynamo 內建智慧型 GPU 規劃器、智慧路由器,以及低延遲通訊庫,簡化這道程序,可無縫高效擴展人工智慧代理。

 

程式碼生成

程式碼生成通常需要反覆微調,根據模型的回應調整提示、釐清需求或除錯輸出。這道反覆的程序不得不在每個使用者回合重新計算上下文,推論成本勢必增加。NVIDIA Dynamo 可重複使用上下文,將工作負載卸載到符合成本效益的記憶體,儘可能減少昂貴的重新計算,降低整體推論成本。

客戶實證

聽聽業界領導者對 NVIDIA Dynamo 的評價


Cohere

「擴展先進人工智慧模型需要精密的多 GPU 排程、無縫協調,以及低延遲通訊庫,才能在各個記憶體與儲存空間無縫傳輸推理的上下文。Dynamo 可望協助我們為企業客戶提供優質的使用者體驗。」Cohere 工程事業部資深副總裁 Saurabh Baji。


Perplexity AI

「我們每個月處理成千上百萬個請求,而 NVIDIA 的 GPU 與推論軟體能滿足我們的業務和使用者對於效能、可靠性與規模的需求。我們很期待利用 Dynamo 及其強化的分散式服務功能,進一步提高推論服務效率,並且滿足新型人工智慧推理模型的運算需求。」Perplexity AI 技術長 Denis Yarats


Together AI

「若要以符合成本效益的方式擴展推理模型,就必須採用先進的新推論技術,包括分解式服務與上下文感知路由。Together AI 運用自專有的推論引擎,締造首屈一指的效能。Dynamo 兼具開源與模組化的特性,因此我們可將它的元件無縫整合到自家引擎,不僅為更多請求提供服務,還能將資源利用率最佳化,讓加速運算的投資發揮最大效益。" Together AI 執行長 Ce Zhang

Cohere

「擴展先進人工智慧模型需要精密的多 GPU 排程、無縫協調,以及低延遲通訊庫,才能在各個記憶體與儲存空間無縫傳輸推理的上下文。NVIDIA Dynamo 可望協助我們為企業客戶提供優質的使用者體驗。」Cohere 工程事業部資深副總裁 Saurabh Baji。

Perplexity AI

「我們每個月處理成千上百萬個請求,而 NVIDIA 的 GPU 與推論軟體能滿足我們的業務和使用者對於效能、可靠性與規模的需求。我們很期待利用 NVIDIA Dynamo 及其強化的分散式服務功能,進一步提高推論服務效率,並且滿足新型人工智慧推理模型的運算需求。」Perplexity AI 技術長 Denis Yarats

Together AI

「若要以符合成本效益的方式擴展推理模型,就必須採用先進的新推論技術,包括分解式服務與上下文感知路由。Together AI 運用自專有的推論引擎,締造首屈一指的效能。NVIDIA Dynamo 兼具開源與模組化的特性,因此我們可將它的元件無縫整合到自家引擎,不僅為更多請求提供服務,還能將資源利用率最佳化,讓加速運算的投資發揮最大效益。」Together AI 技術長 Ce Zhang

使用案例

各行各業的頂尖採用者

資源

NVIDIA 推論最新消息

獲得最新消息

閱讀關於 NVIDIA Dynamo 推論伺服器的最新推論動態與消息。

探索技術部落格

閱讀如何開始採用推論的逐步技術解說。

深入探索

取得部署、執行及擴展人工智慧模型的提示和最佳做法,以進行生成式人工智慧、LLM、推薦系統、電腦視覺等推論。

部署、最佳化並為 LLM 建立基準測試

透過逐步說明,學習如何高效提供 LLM 服務。我們將介紹如何輕鬆部署多個後端 LLM,比較它們的效能,還有如何調整部署配置以獲得最佳效能。

將企業人工智慧使用案例從開發階段推進至正式環境

瞭解何謂人工智慧推論及其如何配合貴企業的人工智慧策略發揮效益、部署企業級人工智慧使用案例的關鍵挑戰、為何需要完整堆疊的人工智慧推論解決方案才能解決這些難題、全方位平台的主要元素,以及如何部署第一個人工智慧推論解決方案。

掌握雲端適用人工智慧推論解決方案的強大功能

探索 NVIDIA 人工智慧推論平台如何與頂尖的雲端服務供應商輕鬆整合,簡化部署並加速發佈 LLM 支援的人工智慧使用案例。

快速入門指南

希望快速部署模型,但未曾使用過 NVIDIA Dynamo 嗎?充分利用這份快速入門指南,展開 NVIDIA Dynamo 之旅。

教學

開始使用 NVIDIA Dynamo 之後,腦中可能浮現許多問題。探索這個儲存庫,熟悉 NVIDIA Dynamo 的功能,並且尋找有助於簡化移轉過程的指南與範例。

NVIDIA LaunchPad

在實作實驗室,利用 NVIDIA Dynamo 體驗迅速可擴展的人工智慧。立即啟用 NVIDIA 加速計算基礎設施的優勢,並擴展人工智慧工作負載。

NVIDIA Dynamo 簡化推論的五大理由

NVIDIA Dynamo 推論伺服器簡化在實際環境大規模部署人工智慧模型的過程,而且可讓團隊將訓練好的人工智慧模型,從任何架構、本機儲存裝置或雲端平台,部署到任何 GPU 或 CPU 技術的基礎架構。

利用 NVIDIA Dynamo 部署 HuggingFace 的 Stable Diffusion 管線

此影片展示適用於 HuggingFace 擴散器程式庫部署 Stable Diffusion 工作流程。我們使用 NVIDIA Dynamo 推論伺服器部署及執行管線。

開始使用 NVIDIA Dynamo 推論伺服器

NVIDIA Dynamo 這個開源推論解決方案將模型部署標準化,在正式環境實現快速可擴展的人工智慧。這個解決方案功能眾多,心中不禁浮現該從何著手的疑問。立即觀看影片,找到答案。

下一步

準備好開始了嗎?

立即從 GitHub 下載,成員社群的一員!

開發人員專區

探索開始利用 NVIDIA Dynamo 開發所需要的一切資源,包括最新文件、教學課程與技術部落格等。

與我們聯絡

與 NVIDIA 產品專家討論,瞭解如何利用 NVIDIA AI Enterprise 的安全性、API 穩定性與支援,從前導專案階段邁向正式環境。

閱讀新聞稿 | 閱讀技術部落格

獲得最新消息

閱讀關於 Dynamo 推論伺服器的最新推論動態與消息。

探索技術部落格

閱讀如何開始採用推論的逐步技術解說。

深入探索

取得部署、執行及擴展人工智慧模型的提示和最佳做法,以進行生成式人工智慧、LLM、推薦系統、電腦視覺等推論。

部署、最佳化並為 LLM 建立基準測試

透過逐步說明,學習如何高效提供 LLM 服務。我們將介紹如何輕鬆部署多個後端 LLM,比較它們的效能,還有如何調整部署配置以獲得最佳效能。

將企業人工智慧使用案例從開發階段推進至正式環境

瞭解何謂人工智慧推論及其如何配合貴企業的人工智慧策略發揮效益、部署企業級人工智慧使用案例的關鍵挑戰、為何需要完整堆疊的人工智慧推論解決方案才能解決這些難題、全方位平台的主要元素,以及如何部署第一個人工智慧推論解決方案。

掌握雲端適用人工智慧推論解決方案的強大功能

探索 NVIDIA 人工智慧推論平台如何與頂尖的雲端服務供應商輕鬆整合,簡化部署並加速發佈 LLM 支援的人工智慧使用案例。

快速入門指南

希望快速部署模型,但未曾使用過 Dynamo 嗎?充分利用這份快速入門指南,展開 Dynamo 之旅。

教學

開始使用 Dynamo 之後,腦中可能浮現許多問題。探索這個儲存庫,熟悉 Dynamo 的功能,並且尋找有助於簡化移轉過程的指南與範例。

NVIDIA LaunchPad

在實作實驗室,利用 NVIDIA Dynamo 體驗迅速可擴展的人工智慧。您可立即體驗 NVIDIA 加速運算基礎架構的優勢,擴展人工智慧工作負載。

Dynamo 簡化推論的五大理由

NVIDIA Dynamo 推論伺服器簡化在實際環境大規模部署人工智慧模型的過程,而且可讓團隊將訓練好的人工智慧模型,從任何架構、本機儲存裝置或雲端平台,部署到任何 GPU 或 CPU 技術的基礎架構。

利用 Dynamo 部署 HuggingFace 的 Stable Diffusion 管線

此影片展示適用於 HuggingFace 擴散器程式庫部署 Stable Diffusion 工作流程。我們使用 Dynamo 推論伺服器部署及執行管線。

開始使用 NVIDIA Dynamo 推論伺服器

Dynamo 推論伺服器這個開源推論解決方案將模型部署標準化,在正式環境實現快速可擴展的人工智慧。這個解決方案功能眾多,心中不禁浮現該從何著手的疑問。立即觀看影片,找到答案。