GPU NVIDIA Health

Visualizza e monitora le flotte di GPU in tempo reale.

Panoramica

Aumenta il tempo di attività delle GPU in tutte le infrastrutture di calcolo

GPU NVIDIA Health è una soluzione completa per la visualizzazione e il monitoraggio di flotte di dispositivi GPU NVIDIA. Dà la possibilità ai partner cloud e alle aziende di monitorare l'utilizzo, la configurazione e gli errori per garantire i tempi di attività, la disponibilità, la qualità e l'integrità delle infrastrutture GPU e hardware.

Partecipa al programma per l'accesso anticipato a GPU NVIDIA Health

Una volta ottenuta la qualificazione, potrai collaborare con NVIDIA per migliorare la disponibilità e l'integrità della tua flotta GPU.

Scopri di più su DGX Cloud

NVIDIA DGX Cloud accelera i carichi di lavoro IA nel cloud, offrendo addestramento ad alte prestazioni, inferenza scalabile e accesso globale alle GPU per gli sviluppatori e i team della piattaforma.

Cos'è GPU NVIDIA Health?

GPU NVIDIA Health è una soluzione per monitorare lo stato e l'integrità delle GPU. Si tratta di un servizio gestito di basso livello e agnostico per la distribuzione che può essere utilizzato a prescindere dallo stack software o dalla pianificazione scelta. GPU Health attualmente supporta i clienti di data center che gestiscono la propria infrastruttura GPU e i consumatori che hanno bisogno di insight migliori sul comportamento delle GPU. La soluzione sfrutta la tecnologia e la proprietà intellettuale di tutto il portafoglio di prodotti NVIDIA, nonché l'esperienza acquisita mediante l'esecuzione di migliaia di GPU in NVIDIA DGX Cloud.

L'agente di GPU Health sfrutta la tecnologia di gestione e ottimizzazione delle GPU di tutta la suite di prodotti NVIDIA. L'agente GPU Health acquisisce metriche che vengono comunicate alla piattaforma GPU Health, analizzate e ospitate per la revisione da parte dei clienti.

Caratteristiche

Garantire i tempi di attività, la disponibilità, la qualità e l'integrità dell'infrastruttura GPU

Inventario e visualizzazione delle flotte

GPU Health offre una visualizzazione completa dell'inventario delle flotte nei data center e nei cloud. La soluzione utilizza un agente che può essere facilmente distribuito sui nodi di lavoro delle GPU per stabilire una comunicazione sicura con GPU Health.

Segnalazione, avvisi e controlli dello stato di salute

L'agente GPU Health sfrutta la tecnologia della suite di prodotti DGX Cloud. Le metriche acquisite dall'agente GPU Health vengono comunicate a GPU Health per la revisione.

Integrità e attestazione

GPU Health utilizza NVIDIA Confidential Computing per verificare l'integrità delle GPU. Durante l'esecuzione, l'agente raccoglie e firma le prove utilizzando i certificati sul dispositivo e l'SDK NVIDIA Attestation, garantendo l'autenticità e l'affidabilità del sistema.

Vantaggi

Cosa offre GPU NVIDIA Health?

Potenza

Monitora i picchi e le riduzioni di potenza per rispettare i budget dei data center e prevenire interruzioni, massimizzando al contempo le prestazioni per watt.

Temperatura

Rileva tempestivamente i punti caldi e i problemi di flusso d'aria per evitare riduzioni termiche e l'invecchiamento prematuro dei componenti.

Prestazioni

Osserva l'utilizzo, la larghezza di banda della memoria, lo stato di salute delle interconnessioni e le cause dei cali per individuare le regressioni e gli squilibri nella flotta.

Salute

Individua errori nel codice di correzione degli errori (ECC) e XID, pagine ritirate, anomalie nella memoria a elevata larghezza di banda (HBM), NVIDIA NVLink™ e PCIe e altri segnali di affidabilità, disponibilità e manutenibilità (RAS) per rilevare i guasti prima che si verifichino.

Configurazione e integrità uniformi

Assicura l'uniformità delle impostazioni tra driver, CUDA® e toolchain, firmware, limiti di potenza e BIOS, oltre a verificare l'integrità delle immagini e del firmware, al fine di garantire risultati riproducibili e un funzionamento sicuro.

Prossimi passi

Vuoi iniziare?

Ottieni un inventario dell'infrastruttura e un monitoraggio dello stato di salute trasparenti e in tempo reale per le GPU.

Scopri di più su NVIDIA DGX Cloud

NVIDIA DGX Cloud accelera il pre-addestramento, il carico di lavoro, l'ottimizzazione, l'inferenza e la distribuzione di applicazioni di IA fisica e industriale.

Scopri la documentazione relativa a NVIDIA DGX Cloud

Accedi alla documentazione tecnica per DGX Cloud, tra cui gli aggiornamenti delle versioni software, i manuali per gli amministratori, le guide rapide e i tutorial.