Visualisieren und überwachen Sie GPU-Flotten in Echtzeit.
Überblick
NVIDIA GPU Health ist eine umfassende Lösung für die Visualisierung und Überwachung von NVIDIA GPU-Geräten. Damit können Cloud-Partner und Unternehmen die Nutzung, Konfiguration und Fehler überwachen, um die Betriebszeit, Verfügbarkeit, Qualität und Integrität der GPU- und Hardware-Infrastruktur sicherzustellen.
NVIDIA GPU Health ist eine Lösung für die Überwachung des Zustands und der Integrität von GPUs. Es handelt sich um einen Low-Level-Managed-Service, der unabhängig von der Bereitstellungsumgebung sowie der Auswahl des Software-Stacks oder des Schedulers verwendet werden kann. GPU Health unterstützt derzeit Rechenzentrumskunden, die ihre eigene GPU-Infrastruktur verwalten, sowie Verbraucher, die einen besseren Einblick in das GPU-Verhalten benötigen. Die Lösung nutzt Technologie und geistiges Eigentum aus dem gesamten Produktportfolio von NVIDIA sowie Erkenntnisse aus dem Betrieb Tausender GPUs in der NVIDIA DGX Cloud.
Der GPU-Health-Agent verwendet GPU-Management- und Optimierungstechnologie aus der gesamten NVIDIA-Produktsuite. Der GPU-Health-Agent erfasst Metriken, die an die GPU-Health-Plattform zurückgesendet, analysiert und für Kunden zur Überprüfung gehostet werden.
Merkmale
GPU Health bietet umfangreiche Visualisierungen des Flottenbestands in Rechenzentren und Clouds. Die Lösung verwendet einen Agenten, der einfach auf GPU-Worker-Knoten bereitgestellt werden kann, um eine sichere Kommunikation mit GPU Health herzustellen.
Der GPU Health-Agent nutzt Technologie aus der Produktsuite von DGX Cloud. Die vom GPU-Health-Agenten erfassten Metriken werden zur Überprüfung an GPU Health zurückgesendet.
GPU Health nutzt NVIDIA Confidential Computing, um die GPU-Integrität zu überprüfen. Zur Laufzeit sammelt und signiert der Agent Nachweise mithilfe von gerätebasierten Zertifikaten und dem NVIDIA Attestation SDK, wodurch die Authentizität und Vertrauenswürdigkeit des Systems gewährleistet wird.
Vorteile
Verfolgen Sie Spitzen und Engpässe, um die Budgets von Rechenzentren einzuhalten, Ausfälle zu vermeiden und gleichzeitig die Verarbeitungsleistung pro Watt zu maximieren.
Erkennen Sie Hotspots und Luftstromprobleme frühzeitig, um Kühlungsdrosselung und vorzeitige Komponentenalterung zu vermeiden.
Überwachen Sie die Auslastung, die Speicherbandbreite, den Zustand der Verbindungen und die Gründe für Drosselungen, um Regressionen und Ungleichgewichte in der gesamten Flotte zu erkennen.
Erfassen Sie Fehlerkorrekturcodes (ECC) und XID-Fehler, ausgemusterte Seiten, Anomalien im Speicher mit hoher Bandbreite (HBM), NVIDIA NVLink™ und PCIe sowie andere Signale zur Zuverlässigkeit, Verfügbarkeit und Wartungsfreundlichkeit (RAS), um Ausfälle zu erkennen, bevor sie auftreten.
Sorgen Sie für konsistente Treiber, CUDA® und Toolchains, Firmware, Leistungsbegrenzungen sowie BIOS-Einstellungen (Basic Input/Output System) und überprüfen Sie die Integrität von Images und Firmware, um reproduzierbare Ergebnisse und einen sicheren Betrieb zu gewährleisten.
NVIDIA DGX Cloud beschleunigt das Pre-Training, die Feinabstimmung und die Inferenz von KI-Workloads sowie die Bereitstellung von physischen und industriellen KI-Anwendungen.
Greifen Sie auf die technische Dokumentation für DGX Cloud zu, einschließlich Software-Release-Updates, Administrator-Handbüchern, Kurzanleitungen und Tutorials.