Visualice y supervise flotas de GPU en tiempo real.
Descripción
NVIDIA GPU Health es una solución integral para visualizar y supervisar flotas de dispositivos GPU NVIDIA. Con ella, los partners y las empresas en la nube pueden supervisar el uso, la configuración y los errores para garantizar el tiempo de actividad, la disponibilidad, la calidad y la integridad de la infraestructura de GPU y hardware.
NVIDIA GPU Health es una solución para supervisar el estado y la integridad de las GPU. Es un servicio gestionado de bajo nivel y agnóstico de implementación que se puede utilizar independientemente de la pila de software o de la elección del planificador. GPU Health actualmente es compatible con clientes de centros de datos que gestionan su propia infraestructura de GPU y con consumidores que necesitan mejor información sobre el comportamiento de las GPU. La solución aprovecha la tecnología y la propiedad intelectual (IP) de toda la cartera de productos de NVIDIA, así como el aprendizaje de la ejecución de miles de GPU en NVIDIA DGX Cloud.
El agente de GPU Health aprovecha la tecnología de gestión y optimización de GPU de todo el conjunto de productos de NVIDIA. El agente de GPU Health captura métricas que se comunican de nuevo a la plataforma de GPU Health, se analizan y alojan para que los clientes las revisen.
Características
GPU Health ofrece una rica visualización del inventario de flota en todos los centros de datos y nubes. La solución utiliza un agente que se puede implementar fácilmente en los nodos de trabajo de GPU para establecer una comunicación segura con la plataforma de GPU Health.
El agente de GPU Health aprovecha la tecnología del conjunto de productos de DGX Cloud. Las métricas capturadas por el agente de GPU Health se comunican de vuelta a la plataforma de GPU Health para su revisión.
GPU Health utiliza NVIDIA Confidential Computing para verificar la integridad de la GPU. En el tiempo de ejecución, el agente recopila y firma pruebas utilizando certificados en el dispositivo y el SDK de NVIDIA Attestation, garantizando la autenticidad y la confianza del sistema.
Ventajas
Rastree picos y estrangulamiento para mantenerse dentro de los presupuestos de los centros de datos y evitar interrupciones al tiempo que maximiza el rendimiento por vatio.
Detecte puntos calientes y problemas de flujo de aire de forma temprana para evitar el estrangulamiento térmico y el envejecimiento prematuro de los componentes.
Observe las razones de utilización, ancho de banda de memoria, estado de interconexión y estrangulamiento para detectar regresiones y desequilibrios en toda la flota.
Haga surgir errores en el código de corrección de errores de superficie (ECC) y XID, páginas retiradas, anomalías en la memoria de alto ancho de banda (HBM), NVIDIA NVLink™ y PCIe, y otras señales de fiabilidad, disponibilidad y capacidad de mantenimiento (RAS) para detectar fallos antes de que ocurran.
Aplique controladores, CUDA® y cadenas de herramientas, firmware, límites de potencia y configuraciones básicas del sistema de entrada/salida (BIOS) coherentes, además de verificar la integridad de la imagen y el firmware, para garantizar resultados reproducibles y un funcionamiento seguro.
NVIDIA DGX Cloud acelera el entrenamiento previo de las cargas de trabajo de IA, el ajuste preciso, la inferencia y la implementación de aplicaciones de IA física e industrial.
Acceda a la documentación técnica para DGX Cloud, incluidas las actualizaciones de versiones de software, manuales de administración, guías de inicio rápido y tutoriales.