GPU フリートをリアルタイムで可視化し、監視します。
概要
NVIDIA GPU Health は、NVIDIA GPU デバイスのフリートを可視化し、監視するための包括的なソリューションです。これにより、クラウド パートナーと企業は、使用状況、構成、エラーを監視し、GPU とハードウェア インフラストラクチャのアップタイム、可用性、品質、完全性を確保できます。
NVIDIA GPU Health は、GPU の健全性と完全性を監視するためのソリューションです。 これは、低レベルでデプロイに依存しないマネージド サービスであり、ソフトウェア スタックやスケジューラーの選択に関係なく利用できます。 GPU Health は現在、自社の GPU インフラストラクチャを管理するデータ センターの顧客と、GPU の動作に関するより良い洞察を必要とする消費者をサポートしています。このソリューションは、NVIDIA の幅広い製品ポートフォリオにわたる技術や知的財産に加え、NVIDIA DGX Cloud で数千台の GPU を運用して得た知見を活用しています。
GPU Health エージェントは、NVIDIA の製品スイート全体に含まれる GPU 管理と最適化テクノロジを活用します。GPU Health エージェントは指標を収集し、それをGPU Health プラットフォームに送り返します。そこで分析、管理され、顧客が確認できるように提供されます。
特徴
GPU Health は、データ センターとクラウド全体でフリートのインベントリの豊富な可視化を提供します。このソリューションは、GPU ワーカー ノードに簡単にデプロイできるエージェントを使用して、GPU Health との安全な通信を確立します。
GPU Health エージェントは、DGX Cloud の製品スイートのテクノロジを活用しています。 GPU Health エージェントが取得した指標は、レビューのために GPU Health に返されます。
GPU Health は、NVIDIA コンフィデンシャル コンピューティングを活用して GPU の完全性を検証しています。 実行時に、エージェントはデバイス上の証明書と NVIDIA Attestation SDK を使用して証拠を収集および署名し、システムの正当性と信頼性を保証します。
利点
急激な負荷上昇とスロットリングを追跡し、データ センターの予算内に収めながら、電力あたりのパフォーマンスを最大化し、電力不足を防止します。
ホットスポットや気流の問題を早期に検知し、サーマルスロットリングやコンポーネントの早期劣化を防止します
使用率、メモリ帯域幅、相互接続の健全性、スロットリングの原因を監視し、フリート全体での性能低下や不均衡を検知します。
表面エラー訂正コード (ECC) や XID エラー、解放されたページ、高帯域幅メモリ (HBM)、NVIDIA NVLink™、PCIe の異常、その他の信頼性、可用性、保守性 (RAS) の信号を監視し、障害が発生する前に検知します。
ドライバー、CUDA® とツールチェーン、ファームウェア、電力制限、基本入出力システム (BIOS) に関する一貫した 設定を適用し、イメージとファームウェアの完全性を検証することで、再現可能な結果と安全な運用を確保します。
NVIDIA DGX Cloud は、フィジカル AI アプリケーションおよび産業用 AI アプリケーションの事前トレーニング、ファインチューニング、推論、デプロイを高速化します。
ソフトウェア リリース アップデート、管理者マニュアル、クイック スタート ガイド、チュートリアルなど、DGX Cloud の技術ドキュメントにアクセスできます。