Dar forma a la era del razonamiento basado en agentes.
Descripción General
La plataforma NVIDIA Rubin ha sido desarrollada para la era de la IA agéntica y el razonamiento, diseñada para dominar la resolución de problemas de varios pasos y los flujos de trabajo masivos de contexto largo a escala. Al eliminar cuellos de botella críticos en la comunicación y el movimiento de memoria, la plataforma potencia la inferencia para ofrecer más tokens por vatio y un menor costo por token en comparación con la generación de la arquitectura NVIDIA Blackwell.
La GPU Rubin cuenta con un nuevo motor Transformer (TE) con compresión adaptativa acelerada por hardware para impulsar el desempeño de NVFP4 y, al mismo tiempo, conservar el nivel de precisión. Esto permite hasta 50 petaFLOPS de inferencia de NVFP4. El motor Transformer, que es completamente compatible con NVIDIA Blackwell, garantiza actualizaciones sin fisuras, para que los códigos optimizados anteriormente pasen sin esfuerzo a la plataforma Vera Rubin.
La tercera generación de la Computación Confidencial de NVIDIA expande la seguridad a escala de bastidor completo con NVIDIA Vera Rubin NVL72. Esta plataforma crea un entorno de ejecución unificado y confiable en las 36 CPU NVIDIA Vera, las 72 GPU NVIDIA Rubin y la estructura NVIDIA NVLink™ que las conecta de manera eficiente y fluida. La plataforma mantiene la seguridad de los datos en los dominios de CPU, GPU y NVLink. Con servicios de certificación para la prueba de cumplimiento criptográfica, combina una escala masiva con estrictos protocolos de protección para los modelos privados, los datos de entrenamiento y las cargas de trabajo de inferencia más grandes del mundo.
NVLink de sexta generación ofrece un gran salto para la estructura de interconexión de GPU de alta velocidad de NVIDIA, ya que unifica 72 GPU NVIDIA Rubin en un solo dominio de desempeño. Al duplicar el desempeño de NVIDIA Blackwell, la GPU Rubin ofrece 3.6 terabytes por segundo (TB/s) de ancho de banda por GPU y 260 TB/s de conectividad con baja latencia para facilitar una comunicación más rápida. Esta interconexión de última generación, en combinación con el Protocolo de Agregación y Reducción Jerárquica Escalable (SHARP™) de NVIDIA, que reduce la congestión de la red hasta en un 50 % para operaciones colectivas, acelera el entrenamiento y la inferencia para los modelos más grandes del mundo, a escala y sin concesiones.
La plataforma NVIDIA Vera Rubin ofrece resiliencia a escala de bastidor con funciones de confiabilidad avanzadas. Las GPU NVIDIA Rubin cuentan con un motor RAS de segunda generación dedicado para el mantenimiento proactivo y las comprobaciones de estado en tiempo real, sin tiempo de inactividad. Las CPU NVIDIA Vera agregan una capacidad de servicio mejorada con módulos de memoria conectados por compresión de perfil bajo (SOCAMM) LPDDR5X y pruebas en el sistema para los núcleos de CPU. El rack presenta diseños de bandejas modulares y sin cables para un ensamblaje y una capacidad de servicio 18 veces más rápidos en comparación con NVIDIA Blackwell, combinados con resiliencia inteligente y el enrutamiento NVLink definido por software, lo que garantiza un funcionamiento continuo y reduce los gastos generales de mantenimiento.
La CPU NVIDIA Vera está diseñada para el movimiento de datos y el razonamiento de agentes en sistemas acelerados, con compatibilidad completa con la computación confidencial. Se combina a la perfección con las GPU de NVIDIA u opera de forma independiente para cargas de trabajo de análisis, nube, orquestación, almacenamiento y computación de alto rendimiento (HPC). Vera combina 88 núcleos diseñados por NVIDIA, hasta 1,2 TB/s de ancho de banda de memoria LPDDR5X y NVIDIA Scalable Coherency Fabric para ofrecer un desempeño predecible y eficiente energéticamente para cargas de trabajo de uso intensivo de datos y memoria con compatibilidad completa con Arm. La conectividad NVIDIA NVLink-C2C integrada permite el acceso a la memoria de CPU–GPU coherente de alto ancho de banda para maximizar la utilización y la eficiencia del sistema.
NVIDIA Vera Rubin, desarrollada por medio de un diseño conjunto extremo, trata al centro de datos, no al chip, como la unidad de computación, lo que establece una nueva base para producir inteligencia de manera eficiente, segura y predecible a escala.