NVIDIA Mission Control™ 將世界級的營運團隊實力轉化為軟體,全方位強化 AI 工廠營運,包括開發人員工作負載以及基礎架構。此平台為 NVIDIA Blackwell™ 與 NVIDIA Rubin 資料中心提供支援,為 AI 領域的最前線帶來即時敏捷性,滿足推論與訓練工作負載的需求,同時提供完整堆疊智慧,實現世界級的基礎架構韌性。Mission Control 讓每家企業都能以超大規模級的效率執行人工智慧,加速人工智慧實驗。
透過順暢的協調流程、工作負載彈性,以及先進的叢集控制技術,讓關鍵任務工作負載能靈活應變。
獲得專業的人工智慧工廠營運能力,實現智慧型全天候資料中心管理、自動化工作,並彌補關鍵技能落差。
主動監測、快速識別故障,並且讓訓練與推論執行復原時間加快 10 倍,重新定義基礎架構的韌性。
將工作負載利用率與運算週期最大化,大幅提高開發人員生產力,實現大規模企業人工智慧的新標準。
簡化整個叢集生命週期人工智慧工廠部署與營運的方式。
利用開發人員可選擇的控制方式與其他效率創新技術,平衡各種工作負載類型的功率需求並微調 GPU 效能。
無需人為介入即可識別、隔離問題並自動復原,實現最大的生產力與基礎架構韌性。
取用叢集方面的關鍵遙測資料,以及易於設定的儀表板,追蹤關鍵效能指標。
在整個基礎架構生命週期驗證硬體與叢集效能。
系統協調能力提升,電力與冷卻事件控制更完善 (包括快速偵測洩漏)。
合作夥伴
配置、驗證及運行由頂尖系統供應商打造的 AI 工廠,這些供應商已針對自家系統測試並驗證 NVIDIA Mission Control 的 NVIDIA Grace™ Blackwell NVL72。