NVIDIA GPU Health

Visualisieren und überwachen Sie GPU-Flotten in Echtzeit.

Überblick
Merkmale
Vorteile
Nächste Schritte

Überblick
Merkmale
Vorteile
Nächste Schritte

Überblick

Steigern Sie die GPU-Verfügbarkeit in Computing-Infrastrukturen

NVIDIA GPU Health ist eine umfassende Lösung für die Visualisierung und Überwachung von NVIDIA GPU-Geräten. Damit können Cloud-Partner und Unternehmen die Nutzung, Konfiguration und Fehler überwachen, um die Betriebszeit, Verfügbarkeit, Qualität und Integrität der GPU- und Hardware-Infrastruktur sicherzustellen.

Nehmen Sie am NVIDIA GPU Health Early Access-Programm teil

Sobald Sie sich qualifiziert haben, arbeiten Sie mit NVIDIA zusammen, um die Verfügbarkeit und Integrität Ihrer GPU-Flotte zu verbessern.

Kontakt

Erfahren Sie mehr über DGX Cloud

NVIDIA DGX Cloud beschleunigt KI-Workloads in der Cloud und bietet Entwicklern und Plattform-Teams leistungsstarkes Training, skalierbare Inferenz und globalen GPU-Zugriff.

Jetzt kennenlernen

Was ist NVIDIA GPU Health?

NVIDIA GPU Health ist eine Lösung für die Überwachung des Zustands und der Integrität von GPUs. Es handelt sich um einen Low-Level-Managed-Service, der unabhängig von der Bereitstellungsumgebung sowie der Auswahl des Software-Stacks oder des Schedulers verwendet werden kann. GPU Health unterstützt derzeit Rechenzentrumskunden, die ihre eigene GPU-Infrastruktur verwalten, sowie Verbraucher, die einen besseren Einblick in das GPU-Verhalten benötigen. Die Lösung nutzt Technologie und geistiges Eigentum aus dem gesamten Produktportfolio von NVIDIA sowie Erkenntnisse aus dem Betrieb Tausender GPUs in der NVIDIA DGX Cloud.

Der GPU-Health-Agent verwendet GPU-Management- und Optimierungstechnologie aus der gesamten NVIDIA-Produktsuite. Der GPU-Health-Agent erfasst Metriken, die an die GPU-Health-Plattform zurückgesendet, analysiert und für Kunden zur Überprüfung gehostet werden.

Merkmale

Stellen Sie die Betriebszeit, Verfügbarkeit, Qualität und Integrität der GPU-Infrastruktur sicher

Flotteninventar und Visualisierung

GPU Health bietet umfangreiche Visualisierungen des Flottenbestands in Rechenzentren und Clouds. Die Lösung verwendet einen Agenten, der einfach auf GPU-Worker-Knoten bereitgestellt werden kann, um eine sichere Kommunikation mit GPU Health herzustellen.

Berichterstattung, Warnmeldungen und Zustandsprüfungen

Der GPU Health-Agent nutzt Technologie aus der Produktsuite von DGX Cloud. Die vom GPU-Health-Agenten erfassten Metriken werden zur Überprüfung an GPU Health zurückgesendet.

Integrität und Attestierung

GPU Health nutzt NVIDIA Confidential Computing, um die GPU-Integrität zu überprüfen. Zur Laufzeit sammelt und signiert der Agent Nachweise mithilfe von gerätebasierten Zertifikaten und dem NVIDIA Attestation SDK, wodurch die Authentizität und Vertrauenswürdigkeit des Systems gewährleistet wird.

Vorteile

Was bietet NVIDIA GPU Health?

Energie

Verfolgen Sie Spitzen und Engpässe, um die Budgets von Rechenzentren einzuhalten, Ausfälle zu vermeiden und gleichzeitig die Verarbeitungsleistung pro Watt zu maximieren.

Temperatur

Erkennen Sie Hotspots und Luftstromprobleme frühzeitig, um Kühlungsdrosselung und vorzeitige Komponentenalterung zu vermeiden.

Leistung

Überwachen Sie die Auslastung, die Speicherbandbreite, den Zustand der Verbindungen und die Gründe für Drosselungen, um Regressionen und Ungleichgewichte in der gesamten Flotte zu erkennen.

Health

Erfassen Sie Fehlerkorrekturcodes (ECC) und XID-Fehler, ausgemusterte Seiten, Anomalien im Speicher mit hoher Bandbreite (HBM), NVIDIA NVLink™ und PCIe sowie andere Signale zur Zuverlässigkeit, Verfügbarkeit und Wartungsfreundlichkeit (RAS), um Ausfälle zu erkennen, bevor sie auftreten.

Einheitliche Konfiguration und Integrität

Sorgen Sie für konsistente Treiber, CUDA® und Toolchains, Firmware, Leistungsbegrenzungen sowie BIOS-Einstellungen (Basic Input/Output System) und überprüfen Sie die Integrität von Images und Firmware, um reproduzierbare Ergebnisse und einen sicheren Betrieb zu gewährleisten.

Nächste Schritte

Sind Sie bereit?

Profitieren Sie von einer transparenten Echtzeit-Inventur der Infrastruktur und einer Zustandsüberwachung für GPUs.

Kontakt

Erfahren Sie mehr über NVIDIA DGX Cloud

NVIDIA DGX Cloud beschleunigt das Pre-Training, die Feinabstimmung und die Inferenz von KI-Workloads sowie die Bereitstellung von physischen und industriellen KI-Anwendungen.

Mehr erfahren

Entdecken sie die NVIDIA DGX Cloud-Dokumentation

Greifen Sie auf die technische Dokumentation für DGX Cloud zu, einschließlich Software-Release-Updates, Administrator-Handbüchern, Kurzanleitungen und Tutorials.

Dokumentationen abrufen