NVIDIA GPU Health

Visualisez et surveillez vos parcs de GPU en temps réel.

Aperçu

Accroissez la durée de bon fonctionnement des GPU sur les infrastructures de calcul

NVIDIA GPU Health est une solution complète de visualisation et de surveillance de parcs d'appareils utilisant des GPU NVIDIA. Elle permet aux partenaires Cloud et aux entreprises de surveiller l'utilisation, la configuration et les erreurs pour garantir le bon fonctionnement, la disponibilité, la qualité et l'intégrité des GPU et de l'infrastructure matérielle.

Rejoignez le programme d'accès anticipé GPU NVIDIA Health

Une fois qualifié, vous pourrez collaborer avec NVIDIA pour améliorer la disponibilité et l'intégrité de votre parc de GPU.

En savoir plus sur DGX Cloud

NVIDIA DGX Cloud accélère les charges de travail d'IA dans le Cloud en fournissant un entraînement hautes performances, une inférence évolutive et un accès mondial aux GPU aux développeurs et aux équipes de plateforme.

Qu'est-ce que NVIDIA GPU Health ?

GPU NVIDIA Health est une solution qui permet de surveiller l'état et l'intégrité des GPU. Il s'agit d'un service géré de bas niveau et indépendant du déploiement qui peut être utilisé quel que soit l'ordonnanceur ou la pile logicielle. GPU Health soutient actuellement les clients de Data Centers qui gèrent leur propre infrastructure GPU, ainsi que les consommateurs veulent mieux comprendre le comportement de leurs GPU. Cette solution exploite la technologie et la propriété intellectuelle du portefeuille de produits de NVIDIA, ainsi que les enseignements tirés de l'exécution de milliers de GPU dans NVIDIA DGX Cloud.

L'agent GPU Health exploite la technologie de gestion et d'optimisation des GPU de la suite de produits de NVIDIA. L'agent GPU Health collecte des métriques qui sont communiquées à la plateforme GPU Health et qui y sont analysées et hébergées pour que les clients puissent les examiner.

Fonctionnalités

Garantir le temps de bon fonctionnement, la disponibilité, la qualité et l'intégrité de l'infrastructure GPU

Inventaire et visualisation des parcs

GPU Health permet de visualiser précisément l'inventaire des parcs dans les Data Centers et les Clouds. Cette solution utilise un agent qui peut être facilement déployé sur les nœuds Worker de GPU pour établir une communication sécurisée avec GPU Health.

Rapports, alertes et vérifications d'état

L'agent GPU Health exploite la technologie de la suite de produits de DGX Cloud. Les métriques capturées par l'agent GPU Health sont communiquées à GPU Health pour examen.

Intégrité et attestation

GPU Health utilise NVIDIA Confidential Computing pour vérifier l'intégrité des GPU. Au moment de l'exécution, l'agent collecte et signe des preuves à l'aide de certificats sur l'appareil et du SDK NVIDIA Attestation, garantissant ainsi l'authenticité et l'intégrité du système.

Avantages

Qu'offre GPU NVIDIA Health ?

Alimentation

Suivez les pics et les ralentissements pour respecter le budget des Data Centers et éviter les interruptions tout en maximisant les performances par watt.

Température

Détectez rapidement les points chauds et les problèmes de flux d'air pour éviter le ralentissement thermique et le vieillissement prématuré des composants.

Performances

Surveillez l'utilisation, la bande passante mémoire, l'état des interconnexions et les raisons variations pour détecter les régressions et les déséquilibres au sein du parc.

État de fonctionnement

Identifiez les erreurs de code de correction d'erreurs (ECC) et les erreurs XID, les pages retirées, les anomalies de la bande passante mémoire élevée (HBM), NVIDIA NVLink™ et PCIe, ainsi que d'autres signaux liés à la fiabilité, la disponibilité et de maintenabilité (RAS) pour détecter les pannes avant qu'elles ne se produisent.

Configuration et intégrité uniformes

Appliquez de manière cohérente des pilotes, des firmwares, des CUDA® et des chaînes d'outils, ainsi que des paramètres de limite d'alimentation et de système d'entrée/sortie de base (BIOS), et vérifiez l'intégrité de l'image et du firmware, pour garantir des résultats reproductibles et un fonctionnement sûr.

Étapes suivantes

Vous voulez vous lancer ?

Obtenez un inventaire transparent de l'infrastructure et surveillez l'état des GPU, en temps réel.

En savoir plus sur NVIDIA DGX Cloud

NVIDIA DGX Cloud accélère le pré-entraînement, le réglage fin, l'inférence des charges de travail d'IA, ainsi que le déploiement d'applications d'IA physiques et industrielles.

Explorez la documentation NVIDIA DGX Cloud

Accédez à la documentation technique de DGX Cloud, notamment des mises à jour logicielles, des manuels d'administration, des guides de démarrage rapide et des didacticiels.