NVIDIA GPU 健康狀況

即時監控並視覺化 GPU 機隊。

簡介

提升運算基礎架構的 GPU 正常運作時間

NVIDIA GPU Health 是一個全方位解決方案,用於視覺化及監控 NVIDIA GPU 裝置機隊。雲端合作夥伴和企業可利用這款平台監測使用情況、配置與錯誤,確保 GPU 與硬體基礎架構的正常運作時間、可用性、品質與完整性。

加入 NVIDIA GPU Health 搶先體驗計畫

一旦認證通過,便可與 NVIDIA 合作,提升 GPU 機隊的可用性和完整性。

瞭解 DGX Cloud

NVIDIA DGX Cloud 可加速雲端 AI 工作負載,為開發人員和平台團隊提供高效能訓練、可擴充推論,以及全球 GPU 存取權限。

NVIDIA GPU Health 是什麼?

NVIDIA GPU Health 是一個用於監測 GPU 健康與完整性的解決方案。這是一種低階且與部署無關的託管服務,無論軟體堆疊或排程器選擇為何,皆可使用。GPU Health 目前支援管理自有 GPU 基礎架構的資料中心客戶,以及需要深入瞭解 GPU 行為的消費者。這款解決方案充分利用 NVIDIA 整個產品組合的技術與智慧財產權,以及 NVIDIA DGX Cloud 執行數千個 GPU 的學習成果。

GPU Health 代理運用 NVIDIA 全系列產品的 GPU 管理和最佳化技術。GPU Health 代理程式會擷取各項指標,並傳回 GPU Health 平台進行分析及託管,供客戶審閱。

特色

確保 GPU 基礎架構的正常運作時間、可用性、品質與完整性

機隊庫存與視覺化

GPU Health 提供豐富的視覺化,顯示資料中心和雲端的機隊庫存。該解決方案使用可輕鬆部署在 GPU 工作節點的代理,與 GPU Health 建立安全通訊。

報告、警示與健康檢查

GPU Health 代理運用 DGX Cloud 產品套件的技術。GPU Health 代理擷取的指標會傳送回 GPU Health 以供審查。

系統完整性與認證

GPU Health 採用 NVIDIA 機密運算技術驗證 GPU 完整性。在執行階段時,代理會利用裝置內建認證和 NVIDIA 認證 SDK 收集並簽署證據,確保系統真實性和可信度。

優勢

NVIDIA GPU Health 提供哪些優勢?

功耗

追蹤尖峰與節流,在資料中心預算內防止電力不足的情況,並同時將每瓦效能最大化。

溫度

及早偵測熱點與氣流問題,避免散熱調節與元件過早老化。

效能

觀察使用率、記憶體頻寬、互連健康狀況,以及降頻原因,以便發現整個機隊中各種迴歸與不平衡狀況。

健康

表面錯誤修正碼 (ECC) 與 XID 錯誤、已淘汰頁面、高頻寬記憶體 (HBM) 的異常情況、NVIDIA NVLink™ 與 PCIe,以及其他可靠性、可用性和可維修性 (RAS) 訊號,在故障發生前發現問題。

統一配置與完整性

實施一致的驅動程式、CUDA® 與工具鏈、韌體、功耗限制與基本輸入 / 輸出系統 (BIOS) 設定,此外驗證影像和韌體的完整性,確保結果可重複,而且運作安全。

後續步驟

準備好開始了嗎?

獲得透明的即時基礎架構庫存與 GPU 健康狀態監測。

深入瞭解 NVIDIA DGX Cloud

NVIDIA DGX Cloud 可加速 AI 工作負載預先訓練、微調、推論及物理與工業 AI 應用的部署。

瀏覽 NVIDIA DGX Cloud 說明文件

存取 DGX Cloud 的技術文件,包括軟體版本更新、管理手冊、快速入門指南與教學課程。