Dar forma a la era del razonamiento basado en agentes.
Descripción General
NVIDIA Rubin está diseñada para la era de los modelos de razonamiento y de IA de agentes, ya que aborda los workflows de contexto largo y resolución de problemas de varios pasos. Al eliminar los cuellos de botella en la comunicación, la coordinación y el movimiento de la memoria, NVIDIA Rubin ofrece una escalabilidad y una eficiencia incomparables, lo que impulsa a los agentes autónomos para que razonen, actúen e innoven a escala.
El motor Transformer de tercera generación avanza drásticamente en la frontera del desempeño de la IA, ya que ofrece un desempeño de inferencia en fase de contexto dos veces más rápido para arquitecturas de modelos de vanguardia, como mezcla de expertos (MoE). Esto se logra con su Unidad de Aceleración Adaptativa (AAU, por su sigla en inglés), que orquesta de forma inteligente la ejecución al seleccionar dinámicamente rutas de computación óptimas y activar instrucciones especializadas. Estas optimizaciones mejoran las operaciones de atención, lo que permite un mayor rendimiento, un menor costo por token y una eficiencia escalable para las cargas de trabajo de IA generativa de última generación.
La tercera generación de la Computación Confidencial de NVIDIA incluye la CPU NVIDIA Vera, lo que amplía la seguridad a escala de bastidor completa con NVIDIA Vera Rubin NVL72. Esta plataforma crea un entorno de ejecución de confianza unificado en 36 CPU NVIDIA Vera, 72 GPU NVIDIA Rubin y la estructura NVIDIA NVLink™ de 260 terabytes por segundo (TB/s) que las conecta sin problemas. Protege todo el ciclo de vida de la IA, desde el preentrenamiento y el posentrenamiento hasta la inferencia, a la vez que mantiene los modelos, los datos y las indicaciones de propiedad exclusiva aislados de los proveedores de nube y otros inquilinos. Con los servicios de certificación para la prueba de cumplimiento criptográfica y el rendimiento casi igual al de ausencia de cifrado que habilita NVLink-C2C, NVL72 combina una escala masiva con una protección sin riesgos, lo que convierte la privacidad en una ventaja de desempeño.
NVLink de sexta generación ofrece un gran salto para la estructura de interconexión de GPU de alta velocidad de NVIDIA, ya que unifica 72 GPU NVIDIA Rubin en un solo dominio de desempeño. Ofrece 3.6 TB/s de ancho de banda por GPU y 260 TB/s de conectividad (el doble que NVIDIA Blackwell) con baja latencia para facilitar una comunicación más rápida. En combinación con NVIDIA® Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™ para una eficiencia excepcional en el ancho de banda, esta interconexión de última generación acelera el entrenamiento y la inferencia para los modelos más grandes del mundo, a escala y sin concesiones.
NVIDIA Vera Rubin NVL72 ofrece resiliencia a escala de bastidor con características de confiabilidad avanzadas. Las GPU NVIDIA Rubin cuentan con un motor RAS de segunda generación dedicado para el mantenimiento proactivo y las comprobaciones de estado en tiempo real sin períodos de inactividad, mientras que las CPU NVIDIA Vera agregan una capacidad de servicio mejorada con SOCAMM LPDDR5X y pruebas en el sistema para los núcleos de CPU. El diseño modular y sin cables del bastidor, combinado con la tolerancia a fallos inteligente y el enrutamiento de NVLink definido por software, garantiza un funcionamiento continuo y reduce los gastos generales de mantenimiento.
La CPU NVIDIA Vera está diseñada para el movimiento de datos y el razonamiento de agentes en sistemas acelerados. Se combina sin problemas con las GPU de NVIDIA u opera de forma independiente para cargas de trabajo de análisis, nube, orquestación, almacenamiento y computación de alto rendimiento (HPC). Al contar con 88 núcleos de alto rendimiento diseñados por NVIDIA, un ancho de banda de memoria de hasta 1,2 TB/s de LPDDR5X y NVIDIA Scalable Coherency Fabric, NVIDIA Vera ofrece un desempeño predecible y de eficiencia energética para cargas de trabajo que consumen muchos datos y memoria. La conectividad NVLink-C2C integrada permite un acceso a la memoria de CPU–GPU coherente de alto ancho de banda, lo que maximiza la utilización del sistema, la eficiencia y el retorno de la inversión.
NVIDIA Vera Rubin, desarrollada a través de un diseño conjunto extremo, trata al centro de datos, no al chip, como la unidad de computación, lo que establece una nueva base para producir inteligencia de manera eficiente, segura y predecible a escala.