NVIDIA GPU Health

Visualice y supervise flotas de GPU en tiempo real.

Descripción

Aumente el tiempo de actividad de las GPU en todas las infraestructuras de computación

NVIDIA GPU Health es una solución integral para visualizar y supervisar flotas de dispositivos GPU NVIDIA. Con ella, los partners y las empresas en la nube pueden supervisar el uso, la configuración y los errores para garantizar el tiempo de actividad, la disponibilidad, la calidad y la integridad de la infraestructura de GPU y hardware.

Únase al programa de acceso anticipado de NVIDIA GPU Health

Una vez calificado, colabore con NVIDIA para mejorar la disponibilidad y la integridad de su flota de GPU.

Más información sobre DGX Cloud

NVIDIA DGX Cloud acelera las cargas de trabajo de IA en la nube, ofreciendo entrenamiento de alto rendimiento, inferencia escalable y acceso global a GPU para desarrolladores y equipos de plataformas.

¿Qué es NVIDIA GPU Health?

NVIDIA GPU Health es una solución para supervisar el estado y la integridad de las GPU. Es un servicio gestionado de bajo nivel y agnóstico de implementación que se puede utilizar independientemente de la pila de software o de la elección del planificador. GPU Health actualmente es compatible con clientes de centros de datos que gestionan su propia infraestructura de GPU y con consumidores que necesitan mejor información sobre el comportamiento de las GPU. La solución aprovecha la tecnología y la propiedad intelectual (IP) de toda la cartera de productos de NVIDIA, así como el aprendizaje de la ejecución de miles de GPU en NVIDIA DGX Cloud.

El agente de GPU Health aprovecha la tecnología de gestión y optimización de GPU de todo el conjunto de productos de NVIDIA. El agente de GPU Health captura métricas que se comunican de nuevo a la plataforma de GPU Health, se analizan y alojan para que los clientes las revisen.

Características

Garantiza el tiempo de actividad, la disponibilidad, la calidad y la integridad de la infraestructura de GPU

Inventario y visualización de flotas

GPU Health ofrece una rica visualización del inventario de flota en todos los centros de datos y nubes. La solución utiliza un agente que se puede implementar fácilmente en los nodos de trabajo de GPU para establecer una comunicación segura con la plataforma de GPU Health.

Informes, alertas y comprobaciones de estado

El agente de GPU Health aprovecha la tecnología del conjunto de productos de DGX Cloud. Las métricas capturadas por el agente de GPU Health se comunican de vuelta a la plataforma de GPU Health para su revisión.

Integridad y atestación

GPU Health utiliza NVIDIA Confidential Computing para verificar la integridad de la GPU. En el tiempo de ejecución, el agente recopila y firma pruebas utilizando certificados en el dispositivo y el SDK de NVIDIA Attestation, garantizando la autenticidad y la confianza del sistema.

Ventajas

¿Qué ofrece NVIDIA GPU Health?

Potencia

Rastree picos y estrangulamiento para mantenerse dentro de los presupuestos de los centros de datos y evitar interrupciones al tiempo que maximiza el rendimiento por vatio.

Temperatura

Detecte puntos calientes y problemas de flujo de aire de forma temprana para evitar el estrangulamiento térmico y el envejecimiento prematuro de los componentes.

Rendimiento

Observe las razones de utilización, ancho de banda de memoria, estado de interconexión y estrangulamiento para detectar regresiones y desequilibrios en toda la flota.

Salud

Haga surgir errores en el código de corrección de errores de superficie (ECC) y XID, páginas retiradas, anomalías en la memoria de alto ancho de banda (HBM), NVIDIA NVLink™ y PCIe, y otras señales de fiabilidad, disponibilidad y capacidad de mantenimiento (RAS) para detectar fallos antes de que ocurran.

Configuración e integridad uniformes

Aplique controladores, CUDA® y cadenas de herramientas, firmware, límites de potencia y configuraciones básicas del sistema de entrada/salida (BIOS) coherentes, además de verificar la integridad de la imagen y el firmware, para garantizar resultados reproducibles y un funcionamiento seguro.

Próximos pasos

¿Listo para empezar?

Obtenga inventario de infraestructura y supervisión del estado de las GPU en tiempo real.

Más información sobre NVIDIA DGX Cloud

NVIDIA DGX Cloud acelera el entrenamiento previo de las cargas de trabajo de IA, el ajuste preciso, la inferencia y la implementación de aplicaciones de IA física e industrial.

Explore la documentación de NVIDIA DGX Cloud

Acceda a la documentación técnica para DGX Cloud, incluidas las actualizaciones de versiones de software, manuales de administración, guías de inicio rápido y tutoriales.