NVIDIA Mission Control™ 簡化了 AI 工廠的各個環節,包括開發人員工作負載排程與協調、監測與自主復原,讓平台團隊運用獲得完整支援的軟體以高效方式作業,並且放心擴大規模。它驅動 NVIDIA Blackwell 與 NVIDIA Rubin 資料中心,迎接 AI 的最新領域,並且結合即時可見性以及對效能、與功耗與冷卻系統的精準控制,以及永不中斷的韌性,將 AI 工廠的投資報酬率最大化。Mission Control 讓每家企業都能以現今超大規模雲服務的效率執行 AI,加速 AI Token 產出。
簡化整個叢集生命週期人工智慧工廠部署與營運的方式。
NVIDIA Mission Control 2.3 在整個 NVIDIA 生態系完全整合,支援 NVIDIA GB200 NVL72 與 NVIDIA GB300 NVL72。它具備跨服務的全新統一驗證功能,並新增虛擬化控制平面選項,大幅提升靈活性與擴充性。此外,Mission Control 現已支援空氣隔離環境部署,並提供洩漏偵測驗證檢查。採用 NVIDIA Blackwell 架構的 NVIDIA DGX™ 系統,現在也可存取完整的 Mission Control 功能,包括自主復原引擎套件。
NVIDIA Mission Control 可透過易於使用的圖形介面,在經驗證的工作流程取用 NVIDIA 最新的電力最佳化創新技術,監測與管理叢集、系統和工作負載層級的行動。透過 Mission Control,管理員可取用 Domain Power Service,並設定能感知工作負載的全叢集動態原則,將電力使用方式最佳化。
透過無縫的多節點訓練與推論協調、靈活整合第三方軟體,以及先進的電力與冷卻自動化技術,讓 AI 工廠營運更靈活彈性。
利用現成可用的整合式 Grafana 儀表板和隨時可用的健全狀況檢查功能,深入瞭解工作負載正常運作時間、叢集基礎設施與設施,減輕警示疲勞並將效能最佳化。
利用端到端自主復原引擎重塑新式資料中心韌性,範圍涵蓋異常偵測、隔離、快速作業重啟,以及自動化的硬體修復。
運用端到端驗證的工作流程、持續營運以提升營收潛力,以及 NVIDIA Enterprise Support,將 AI 工廠產出最大化,樹立大規模企業 AI 的新標準。
合作夥伴
配置、驗證及運行由頂尖系統供應商打造的 AI 工廠,這些供應商已針對自家系統測試並驗證 NVIDIA Mission Control 的 NVIDIA Grace™ Blackwell NVL72。
NVIDIA 提供 AI 工廠所需的一切基石。NVIDIA Mission Control 與 NVIDIA AI Enterprise 共同提供尖端的基礎架構與工作負載管理,以及正式環境 AI 的開發人員工具,讓企業能以前所未有的務實規模善用 AI 劃時代的力量。