Visualisez et surveillez vos parcs de GPU en temps réel.
Aperçu
NVIDIA GPU Health est une solution complète de visualisation et de surveillance de parcs d'appareils utilisant des GPU NVIDIA. Elle permet aux partenaires Cloud et aux entreprises de surveiller l'utilisation, la configuration et les erreurs pour garantir le bon fonctionnement, la disponibilité, la qualité et l'intégrité des GPU et de l'infrastructure matérielle.
GPU NVIDIA Health est une solution qui permet de surveiller l'état et l'intégrité des GPU. Il s'agit d'un service géré de bas niveau et indépendant du déploiement qui peut être utilisé quel que soit l'ordonnanceur ou la pile logicielle. GPU Health soutient actuellement les clients de Data Centers qui gèrent leur propre infrastructure GPU, ainsi que les consommateurs veulent mieux comprendre le comportement de leurs GPU. Cette solution exploite la technologie et la propriété intellectuelle du portefeuille de produits de NVIDIA, ainsi que les enseignements tirés de l'exécution de milliers de GPU dans NVIDIA DGX Cloud.
L'agent GPU Health exploite la technologie de gestion et d'optimisation des GPU de la suite de produits de NVIDIA. L'agent GPU Health collecte des métriques qui sont communiquées à la plateforme GPU Health et qui y sont analysées et hébergées pour que les clients puissent les examiner.
Fonctionnalités
GPU Health permet de visualiser précisément l'inventaire des parcs dans les Data Centers et les Clouds. Cette solution utilise un agent qui peut être facilement déployé sur les nœuds Worker de GPU pour établir une communication sécurisée avec GPU Health.
L'agent GPU Health exploite la technologie de la suite de produits de DGX Cloud. Les métriques capturées par l'agent GPU Health sont communiquées à GPU Health pour examen.
GPU Health utilise NVIDIA Confidential Computing pour vérifier l'intégrité des GPU. Au moment de l'exécution, l'agent collecte et signe des preuves à l'aide de certificats sur l'appareil et du SDK NVIDIA Attestation, garantissant ainsi l'authenticité et l'intégrité du système.
Avantages
Suivez les pics et les ralentissements pour respecter le budget des Data Centers et éviter les interruptions tout en maximisant les performances par watt.
Détectez rapidement les points chauds et les problèmes de flux d'air pour éviter le ralentissement thermique et le vieillissement prématuré des composants.
Surveillez l'utilisation, la bande passante mémoire, l'état des interconnexions et les raisons variations pour détecter les régressions et les déséquilibres au sein du parc.
Identifiez les erreurs de code de correction d'erreurs (ECC) et les erreurs XID, les pages retirées, les anomalies de la bande passante mémoire élevée (HBM), NVIDIA NVLink™ et PCIe, ainsi que d'autres signaux liés à la fiabilité, la disponibilité et de maintenabilité (RAS) pour détecter les pannes avant qu'elles ne se produisent.
Appliquez de manière cohérente des pilotes, des firmwares, des CUDA® et des chaînes d'outils, ainsi que des paramètres de limite d'alimentation et de système d'entrée/sortie de base (BIOS), et vérifiez l'intégrité de l'image et du firmware, pour garantir des résultats reproductibles et un fonctionnement sûr.
NVIDIA DGX Cloud accélère le pré-entraînement, le réglage fin, l'inférence des charges de travail d'IA, ainsi que le déploiement d'applications d'IA physiques et industrielles.
Accédez à la documentation technique de DGX Cloud, notamment des mises à jour logicielles, des manuels d'administration, des guides de démarrage rapide et des didacticiels.