NVIDIA Mission Control

執行模型,將核心任務自動化。

概覽

讓全球最先進的人工智慧工廠專業知識融入每家企業

NVIDIA Mission Control™ 簡化了 AI 工廠的各個環節,包括開發人員工作負載排程與協調、監測與自主復原,讓平台團隊運用獲得完整支援的軟體以高效方式作業,並且放心擴大規模。它驅動 NVIDIA BlackwellNVIDIA Rubin 資料中心,迎接 AI 的最新領域,並且結合即時可見性以及對效能、與功耗與冷卻系統的精準控制,以及永不中斷的韌性,將 AI 工廠的投資報酬率最大化。Mission Control 讓每家企業都能以現今超大規模雲服務的效率執行 AI,加速 AI Token 產出。

管理及運行人工智慧工廠

NVIDIA Mission Control 透過靈活彈性、韌性與超大規模級效率,為企業簡化各種人工智慧營運情境,包括叢集部署、工作負載協調,乃至於建築物管理整合。

從機架級硬體到可排程的 AI 基礎設施

AI 架構師與高效能運算平台業者不僅必須解決安裝及堆疊硬體的問題,更要讓該機架轉化為對終端使用者安全、高效能且易於使用的資源。NVIDIA Mission Control 這類經驗證的軟體堆疊,提供多節點排程工具,同時支援 Slurm 與 Kubernetes。

技術

人工智慧資料中心營運與協調

簡化整個叢集生命週期人工智慧工廠部署與營運的方式。

進階電源最佳化

在功耗受限或對成本敏感的環境中,以 85% 功耗與 93% 效能傳輸量執行,並且可取用 NVIDIA 最新電力創新技術經驗證的實作方案。

建築管理整合

改善對電力與冷卻事件的控制能力,包括快速偵測洩漏,並且透過自動化與整合式儀表板強化系統與資料中心設施的協調能力。

自主復原引擎

無需手動介入即可將辨識、隔離及復原問題的速度提升 10 倍,加速訓練與推論執行,實現最高的開發人員生產力與最強的內建基礎設施韌性。

持續的健康檢查

取用健全狀況檢查功能,而且可選擇根據 NVIDIA 預設規則觸發自動化動作,在基礎設施整個生命週期驗證硬體與叢集效能。

動態工作負載協調

利用隨附的 NVIDIA Run:ai 技術大幅提升 GPU 可用性與利用率,或者將 Slurm 與自己的 Kubernetes 整合至叢集管理平台。

靈活安全的配置

整合 NVIDIA Mission Control 服務與值得信賴的 ISV 解決方案,實現靈活安全的配置,不僅提供經驗證的命名空間隔離措施,更符合組織需求。

新發行

NVIDIA Mission Control 2.3

NVIDIA Mission Control 2.3 在整個 NVIDIA 生態系完全整合,支援 NVIDIA GB200 NVL72NVIDIA GB300 NVL72。它具備跨服務的全新統一驗證功能,並新增虛擬化控制平面選項,大幅提升靈活性與擴充性。此外,Mission Control 現已支援空氣隔離環境部署,並提供洩漏偵測驗證檢查。採用 NVIDIA Blackwell 架構的 NVIDIA DGX™ 系統,現在也可存取完整的 Mission Control 功能,包括自主復原引擎套件。

NVIDIA Mission Control 可透過易於使用的圖形介面,在經驗證的工作流程取用 NVIDIA 最新的電力最佳化創新技術,監測與管理叢集、系統和工作負載層級的行動。透過 Mission Control,管理員可取用 Domain Power Service,並設定能感知工作負載的全叢集動態原則,將電力使用方式最佳化。

優勢

為何選用 NVIDIA Mission Control?

即時營運敏捷度

透過無縫的多節點訓練與推論協調、靈活整合第三方軟體,以及先進的電力與冷卻自動化技術,讓 AI 工廠營運更靈活彈性。

廣泛監測

利用現成可用的整合式 Grafana 儀表板和隨時可用的健全狀況檢查功能,深入瞭解工作負載正常運作時間、叢集基礎設施與設施,減輕警示疲勞並將效能最佳化。

內建韌性

利用端到端自主復原引擎重塑新式資料中心韌性,範圍涵蓋異常偵測、隔離、快速作業重啟,以及自動化的硬體修復。

加速 AI Token 產出

運用端到端驗證的工作流程、持續營運以提升營收潛力,以及 NVIDIA Enterprise Support,將 AI 工廠產出最大化,樹立大規模企業 AI 的新標準。

合作夥伴

與頂尖系統供應商合作,一同部署及執行 AI 工廠

配置、驗證及運行由頂尖系統供應商打造的 AI 工廠,這些供應商已針對自家系統測試並驗證 NVIDIA Mission Control 的 NVIDIA Grace™ Blackwell NVL72。

解決方案

世界級 AI 工廠所需的一切

NVIDIA 提供 AI 工廠所需的一切基石。NVIDIA Mission Control 與 NVIDIA AI Enterprise 共同提供尖端的基礎架構與工作負載管理,以及正式環境 AI 的開發人員工具,讓企業能以前所未有的務實規模善用 AI 劃時代的力量。

NVIDIA DGX SuperPOD

領先業界的人工智慧基礎架構,專為人工智慧的獨特需求打造。

NVIDIA DGX SuperPOD™ 是隨裝即用的人工智慧資料中心基礎架構解決方案,為每位使用者和每項工作負載提供極致效能。DGX SuperPOD 可透過任何 DGX™ 系統配置,提供領先業界的加速基礎架構,效能可擴展,滿足最繁重的人工智慧訓練與推論工作負載需求。

NVIDIA AI Enterprise

這個雲端原生軟體平台提供專為開發人員打造的工具,將生產級人工智慧最佳化。

NVIDIA AI Enterprise 軟體套件包含 NVIDIA 最卓越的資料科學工具、預先訓練的模型與最佳化架構等,並享有完整的 NVIDIA 企業支援。NVIDIA AI Enterprise 經過最佳化,可在 Mission Control 執行。

後續步驟

準備好開始了嗎?

利用 NVIDIA Mission Control 簡化人工智慧營運,賦予企業實現宏大的人工智慧計畫的能力。

需要 NVIDIA Mission Control 的支援嗎?

利用 NVIDIA DGX Enterprise 支援與服務取得專家支援與指引,加速實現成果。

NVIDIA Mission Control 文件

存取 NVIDIA Mission Control 的使用者指南與版本資訊。