NVIDIA Run:ai

適用於 AI 工作負載與 GPU 協調的企業平台。

開始使用

說明文件 | 解決方案概覽 | 尋找合作夥伴

概覽
特色
效能
解決方案
優勢
使用案例
技術
合作夥伴
後續步驟

概覽
特色
效能
解決方案
優勢
使用案例
技術
合作夥伴
後續步驟

與我們聯絡

概覽

利用動態協調加速 AI 工作流程

NVIDIA Run:ai 透過動態資源分配、全方位 AI 生命週期支援與策略性資源管理，解決關鍵基礎架構挑戰，加速 AI 與機器學習運算作業。該平台透過整合跨環境資源並運用進階資源編排技術，大幅提升 GPU 使用效率與工作負載承載能力。NVIDIA Run:ai 支援公有雲、私有雲、混合雲環境及地端資料中心，具備卓越的彈性與適應性。

何謂智慧協調？

瞭解 AI 原生工作負載協調如何提升 GPU 效率極限、精簡 AI 基礎架構管理，並順利在混合雲端與多雲端環境中擴充 AI 工作負載。

閱讀解決方案簡介

何謂 NVIDIA Run:ai？

NVIDIA Run:ai 透過整個 AI 生命週期的動態協調加速 AI 運算處理，極限提高 GPU 效率、擴大工作負載，且無需人工操作，即可順暢整合至混合式 AI 基礎架構。

NVIDIA Run:ai 可透過 GPU 協調的進階 AI 工作負載協調的 AI 生命週期，以及將資源管理轉為策略資產的強力策略引擎，確保以最佳方式利用並符合企業目標，提供流暢無阻的工作流程。

NVIDIA Run:ai 協助實現可擴展的 AI 營運

NVIDIA Run:ai 現已成為 NVIDIA AI Enterprise 的一部分，可簡化大規模 AI 工作負載的運作。它能最大限度地利用 GPU，提升工作負載吞吐量，並集中管理策略和治理，從而在訓練、實驗和推論等各個環節提供安全、可靠且高效的 AI 營運。

深入瞭解

特色

可大規模建置、訓練及部署 AI 工作負載的 AI 工作負載與 GPU 協調

AI 原生工作負載協調

在分散式環境將 AI 工作負載執行集中並自動化，讓分散的基礎架構轉化為可擴充的 AI 工廠。

動態 GPU 分配

即時為工作負載需求動態搭配資源，確保每顆 GPU 都能發揮得淋漓盡致。

策略驅動治理

透過集中式、策略驅動的治理機制，跨部門、專案與團隊安全且高效地執行 AI 工作負載，確保 GPU 資源的公平分配、優先調度與穩定可靠的存取。

開放式架構

NVIDIA Run:ai 採用 API 優先方法，確保與所有主要 AI 框架、機器學習工具與第三方解決方案順暢整合。

效能

現實世界 AI 加速：經證實的大規模 GPU 協調

動態排程與編排機制可加速 AI 吞吐量，實現無縫擴展，並最大化 GPU 利用率。

10 倍

GPU 可用性

20 倍

執行中的工作負載

5 倍

GPU 利用率

手動介入

解決方案

NVIDIA Run:ai 的開源解決方案

利用 KAI Scheduler 在 Kubernetes 大規排程公平高效的 AI 工作負載

這款開源 KAI Scheduler 採用 NVIDIA Run:ai，利用 YAML 檔案與常見的 Kubernetes 技術整合，簡單靈活管理 AI 工作負載。它為協調 AI 資源提供高效的解決方案，是開發人員與小型團隊的理想選擇。

無縫的開源 Kubernetes 排程

利用 Grove 在 Kubernetes 提供拓撲最佳化服務

Grove 橋接 AI 推論框架與 Kubernetes 的排程機制，透過統一的自訂資源讓相依元件高效擴充，並以宣告方式定義啟動順序。Grove 自動生成 KAI Scheduler 等 Kubernetes 排程器可解釋的排程約束條件，實現拓撲感知的群組排程部署。Grove 是 NVIDIA Dynamo 的模組化元件，也可獨立運作或與其他推論框架整合。

探索 Grove 如何運作

利用 NVIDIA Run:ai Model Streamer 縮短模型載入時間，過去需要幾分鐘，現在只要幾秒

Model Streamer 是 Python SDK，搭載專為加速推論工作負載模型載入而設計的高效能 C++ 後端。它使用多個執行緒，從任何儲存類型同時讀取張量，並將這些資料直接傳輸至 GPU 記憶體。Model Streamer 充分利用可用的儲存頻寬，大幅縮短模型載入所需的時間。

查看基準測試結果

優勢

發揮 AI 基礎架構的完整潛力

NVIDIA Run:ai 專為 AI 排程與基礎架構管理打造，可在整個 AI 生命週期加速 AI 工作負載，加速實現價值。

極限提升 GPU 利用率、盡可能降低成本，並推動 AI 效率

NVIDIA Run:ai 在混合環境下動態匯集並協調 GPU 資源。企業透過排除浪費、極致利用資源，以及根據企業優先處理運算能力，實現卓越的投資報酬率、降低營運成本，並加速擴大 AI 計畫的規模。

從開發到部署順暢加速 AI 過程

從開發、訓練再到部署，NVIDIA Run:ai 實現了 AI 生命週期順暢轉型。這個平台透過協調資源以及將各種 AI 工具整合統一的流程，減少瓶頸出現、縮短開發週期，並將 AI 解決方案加速擴大至實際生產環境，提供切實的業務成果。

用於完整 AI 控制的集中式協調

NVIDIA Run:ai 為分佈式 AI 基礎架構、工作負載與使用者提供端對端的可見性與控制。集中式協調整合了雲端、本機與混合環境的資源，讓企業得以採取可操作的深入解析、政策驅動的治理，以及精細的資源管理，實現高效且可擴充的 AI 運算。

任何環境下的靈活整合

NVIDIA Run:ai 以絕佳的靈活性與可用性支援現代化 AI 工廠。無論是在公有雲、私有雲、混合環境還是本機資料中心，這款開放式架構均可與任何機器學習工具、框架或基礎架構順暢整合。

使用案例

利用智慧協調加速 AI 工作負載

NVIDIA Run:ai 專為 AI 工作負載打造，提供智慧協調，極限提高運算效率，並動態擴大 AI 訓練與推論的規模。

Survey Report

State of AI in Telecommunications

The 2026 survey explores how telecom companies are investing in, deploying, and benefiting from AI.

Download Now

規模化 AI
分段推論
緩解冷啟動問題

企業 AI 加速

NVIDIA Run:ai 讓企業能夠高效擴大 AI 工作負載，降低成本並改善 AI 開發週期。企業透過動態分配 GPU 資源，可極限提升運算利用率、縮短閒置時間，並加速機器學習計畫。NVIDIA Run:ai 還可透過提供統一的管理界面來精簡 AI 運算，實現資料科學家、工程師和 IT 團隊之間的順暢協作。

觀看影片 (08:02)

提升 Token 吞吐量至最大化

在共享 GPU 基礎架構上同時執行多樣化 AI 工作負載，可大幅提升整體吞吐量與資源利用率。透過以細粒度方式將 GPU 分配至推論、嵌入與生成等任務，組織能夠在避免資源爭用的情況下並行運行更多模型。相較於單一模型的整卡 GPU 執行方式，混合工作負載可在 GPU、主機與叢集層級實現顯著更高的整體吞吐量，從而最大化基礎架構效率，並加速跨團隊的 AI 產出。

閱讀部落格文章

緩解冷啟動問題

透過在 GPU 與主機之間動態交換模型記憶體，在不犧牲效能的前提下降低模型部署成本。NVIDIA 的 GPU 記憶體交換機制可將模型的活躍部分保留於 GPU 上，同時以透明分頁機制調度非活躍區段，使更大型模型能在更少 GPU 上執行。此方法可降低基礎架構成本、減少閒置容量，並為生產環境部署提供具成本效益的推論能力，特別適用於記憶體密集型的大型語言模型工作負載。

閱讀部落格文章