Plataforma NVIDIA Rubin

Plataforma NVIDIA Rubin

Dar forma a la era del razonamiento basado en agentes.

Descripción General

Impulsar la Era de la IA de Agentes

NVIDIA Rubin está diseñada para la era de los modelos de razonamiento y de IA de agentes, ya que aborda los workflows de contexto largo y resolución de problemas de varios pasos. Al eliminar los cuellos de botella en la comunicación, la coordinación y el movimiento de la memoria, NVIDIA Rubin ofrece una escalabilidad y una eficiencia incomparables, lo que impulsa a los agentes autónomos para que razonen, actúen e innoven a escala.

Interior de NVIDIA Vera Rubin NVL72: La Arquitectura de Plataforma que Impulsa la Próxima Ola de Fábricas de IA

NVIDIA Vera Rubin, desarrollada a través de un diseño conjunto extremo, trata al centro de datos, no al chip, como la unidad de computación, lo que establece una nueva base para producir inteligencia de manera eficiente, segura y predecible a escala.

Explore los Avances Tecnológicos

Motor Transformer de Tercera Generación

El motor Transformer de tercera generación avanza drásticamente en la frontera del desempeño de la IA, ya que ofrece un desempeño de inferencia en fase de contexto dos veces más rápido para arquitecturas de modelos de vanguardia, como mezcla de expertos (MoE). Esto se logra con su Unidad de Aceleración Adaptativa (AAU, por su sigla en inglés), que orquesta de forma inteligente la ejecución al seleccionar dinámicamente rutas de computación óptimas y activar instrucciones especializadas. Estas optimizaciones mejoran las operaciones de atención, lo que permite un mayor rendimiento, un menor costo por token y una eficiencia escalable para las cargas de trabajo de IA generativa de última generación.

Computación Confidencial de Tercera Generación

La tercera generación de la Computación Confidencial de NVIDIA incluye la CPU NVIDIA Vera, lo que amplía la seguridad a escala de bastidor completa con NVIDIA Vera Rubin NVL72. Esta plataforma crea un entorno de ejecución de confianza unificado en 36 CPU NVIDIA Vera, 72 GPU NVIDIA Rubin y la estructura NVIDIA NVLink™ de 260 terabytes por segundo (TB/s) que las conecta sin problemas. Protege todo el ciclo de vida de la IA, desde el preentrenamiento y el posentrenamiento hasta la inferencia, a la vez que mantiene los modelos, los datos y las indicaciones de propiedad exclusiva aislados de los proveedores de nube y otros inquilinos. Con los servicios de certificación para la prueba de cumplimiento criptográfica y el rendimiento casi igual al de ausencia de cifrado que habilita NVLink-C2C, NVL72 combina una escala masiva con una protección sin riesgos, lo que convierte la privacidad en una ventaja de desempeño.

NVLink de Sexta Generación y Switch NVLink

NVLink de sexta generación ofrece un gran salto para la estructura de interconexión de GPU de alta velocidad de NVIDIA, ya que unifica 72 GPU NVIDIA Rubin en un solo dominio de desempeño. Ofrece 3.6 TB/s de ancho de banda por GPU y 260 TB/s de conectividad (el doble que NVIDIA Blackwell) con baja latencia para facilitar una comunicación más rápida. En combinación con NVIDIA® Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™ para una eficiencia excepcional en el ancho de banda, esta interconexión de última generación acelera el entrenamiento y la inferencia para los modelos más grandes del mundo, a escala y sin concesiones.

Motor de Confiabilidad, Disponibilidad y Capacidad de Servicio (RAS) de Segunda Generación

NVIDIA Vera Rubin NVL72 ofrece resiliencia a escala de bastidor con características de confiabilidad avanzadas. Las GPU NVIDIA Rubin cuentan con un motor RAS de segunda generación dedicado para el mantenimiento proactivo y las comprobaciones de estado en tiempo real sin períodos de inactividad, mientras que las CPU NVIDIA Vera agregan una capacidad de servicio mejorada con SOCAMM LPDDR5X y pruebas en el sistema para los núcleos de CPU. El diseño modular y sin cables del bastidor, combinado con la tolerancia a fallos inteligente y el enrutamiento de NVLink definido por software, garantiza un funcionamiento continuo y reduce los gastos generales de mantenimiento.

NVIDIA Vera

La CPU NVIDIA Vera está diseñada para el movimiento de datos y el razonamiento de agentes en sistemas acelerados. Se combina sin problemas con las GPU de NVIDIA u opera de forma independiente para cargas de trabajo de análisis, nube, orquestación, almacenamiento y computación de alto rendimiento (HPC). Al contar con 88 núcleos de alto rendimiento diseñados por NVIDIA, un ancho de banda de memoria de hasta 1,2 TB/s de LPDDR5X y NVIDIA Scalable Coherency Fabric, NVIDIA Vera ofrece un desempeño predecible y de eficiencia energética para cargas de trabajo que consumen muchos datos y memoria. La conectividad NVLink-C2C integrada permite un acceso a la memoria de CPU–GPU coherente de alto ancho de banda, lo que maximiza la utilización del sistema, la eficiencia y el retorno de la inversión.

Explore los productos NVIDIA Rubin

NVIDIA Vera Rubin NVL72

NVIDIA Vera Rubin NVL72 unifica 72 GPU NVIDIA Rubin, 36 CPU NVIDIA Vera, 144 SuperNIC NVIDIA ConnectX®-9 y 18 DPU NVIDIA BlueField®-4. Escala la inteligencia en una plataforma coherente a escala de bastidor con NVLink 6 y escala con NVIDIA Quantum-X800 InfiniBand y NVIDIA Spectrum-X™ Ethernet para impulsar la revolución industrial de la IA a escala.

NVIDIA DGX Vera Rubin NVL72

NVIDIA DGX Vera Rubin NVL72 proporciona a las empresas una solución de infraestructura de IA lista para usar y lista para implementar, basada en la arquitectura NVIDIA Vera Rubin, diseñada específicamente para implementarse a escala a fin de acelerar los modelos de IA más complejos.

NVIDIA DGX Rubin NVL8

NVIDIA DGX Rubin NVL8 es un sistema de IA con refrigeración líquida que funciona con ocho GPU NVIDIA Rubin y NVLink de sexta generación, y está diseñado específicamente para acelerar el entrenamiento, la inferencia y el posentrenamiento de todas las cargas de trabajo de IA.

Interior de NVIDIA Vera Rubin NVL72: La Arquitectura de Plataforma que Impulsa la Próxima Ola de Fábricas de IA

NVIDIA Vera Rubin, desarrollada a través de un diseño conjunto extremo, trata al centro de datos, no al chip, como la unidad de computación, lo que establece una nueva base para producir inteligencia de manera eficiente, segura y predecible a escala.