Visualizza e monitora le flotte di GPU in tempo reale.
Panoramica
GPU NVIDIA Health è una soluzione completa per la visualizzazione e il monitoraggio di flotte di dispositivi GPU NVIDIA. Dà la possibilità ai partner cloud e alle aziende di monitorare l'utilizzo, la configurazione e gli errori per garantire i tempi di attività, la disponibilità, la qualità e l'integrità delle infrastrutture GPU e hardware.
GPU NVIDIA Health è una soluzione per monitorare lo stato e l'integrità delle GPU. Si tratta di un servizio gestito di basso livello e agnostico per la distribuzione che può essere utilizzato a prescindere dallo stack software o dalla pianificazione scelta. GPU Health attualmente supporta i clienti di data center che gestiscono la propria infrastruttura GPU e i consumatori che hanno bisogno di insight migliori sul comportamento delle GPU. La soluzione sfrutta la tecnologia e la proprietà intellettuale di tutto il portafoglio di prodotti NVIDIA, nonché l'esperienza acquisita mediante l'esecuzione di migliaia di GPU in NVIDIA DGX Cloud.
L'agente di GPU Health sfrutta la tecnologia di gestione e ottimizzazione delle GPU di tutta la suite di prodotti NVIDIA. L'agente GPU Health acquisisce metriche che vengono comunicate alla piattaforma GPU Health, analizzate e ospitate per la revisione da parte dei clienti.
Caratteristiche
GPU Health offre una visualizzazione completa dell'inventario delle flotte nei data center e nei cloud. La soluzione utilizza un agente che può essere facilmente distribuito sui nodi di lavoro delle GPU per stabilire una comunicazione sicura con GPU Health.
L'agente GPU Health sfrutta la tecnologia della suite di prodotti DGX Cloud. Le metriche acquisite dall'agente GPU Health vengono comunicate a GPU Health per la revisione.
GPU Health utilizza NVIDIA Confidential Computing per verificare l'integrità delle GPU. Durante l'esecuzione, l'agente raccoglie e firma le prove utilizzando i certificati sul dispositivo e l'SDK NVIDIA Attestation, garantendo l'autenticità e l'affidabilità del sistema.
Vantaggi
Monitora i picchi e le riduzioni di potenza per rispettare i budget dei data center e prevenire interruzioni, massimizzando al contempo le prestazioni per watt.
Rileva tempestivamente i punti caldi e i problemi di flusso d'aria per evitare riduzioni termiche e l'invecchiamento prematuro dei componenti.
Osserva l'utilizzo, la larghezza di banda della memoria, lo stato di salute delle interconnessioni e le cause dei cali per individuare le regressioni e gli squilibri nella flotta.
Individua errori nel codice di correzione degli errori (ECC) e XID, pagine ritirate, anomalie nella memoria a elevata larghezza di banda (HBM), NVIDIA NVLink™ e PCIe e altri segnali di affidabilità, disponibilità e manutenibilità (RAS) per rilevare i guasti prima che si verifichino.
Assicura l'uniformità delle impostazioni tra driver, CUDA® e toolchain, firmware, limiti di potenza e BIOS, oltre a verificare l'integrità delle immagini e del firmware, al fine di garantire risultati riproducibili e un funzionamento sicuro.
NVIDIA DGX Cloud accelera il pre-addestramento, il carico di lavoro, l'ottimizzazione, l'inferenza e la distribuzione di applicazioni di IA fisica e industriale.
Accedi alla documentazione tecnica per DGX Cloud, tra cui gli aggiornamenti delle versioni software, i manuali per gli amministratori, le guide rapide e i tutorial.