NVIDIA Vera Rubin NVL72 de un Solo Bastidor

NVIDIA Vera Rubin NVL72

Desarrollo de la próxima frontera de la IA basada en agentes.

Descripción General

Siete Nuevos Chips, Una Supercomputadora de IA

NVIDIA Vera Rubin NVL72 unifica las tecnologías más avanzadas de NVIDIA: 72 GPU Rubin, 36 CPU Vera, ConnectX®-9 SuperNICs™ y DPU BlueField®-4. Amplía la inteligencia en una plataforma a escala de bastidor con el conmutador NVIDIA NVLink™ 6 y escala con NVIDIA Quantum-X800 InfiniBand y Spectrum-X™ Ethernet para impulsar la revolución industrial de la IA a gran escala. Cuando se implementa con bastidores NVIDIA Groq 3 LPX, Vera Rubin NVL72 ofrece una nueva clase de rendimiento de inferencia para modelos con billones de parámetros y un contexto de millones de tokens.

Vera Rubin NVL72 se basa en el diseño de bastidor NVIDIA MGX™ NVL72 de tercera generación, ofreciendo una transición perfecta desde generaciones anteriores. Proporciona entrenamiento de IA con una cuarta parte de las GPU e inferencia de IA a una décima parte del costo por millón de tokens en comparación con NVIDIA Blackwell. Con diseños modulares de bandejas sin cables y el apoyo de más de 80 socios del ecosistema MGX, la supercomputadora de IA a escala de bastidor ofrece un rendimiento de clase mundial con una implementación rápida.

NVIDIA Vera Rubin Entra en Fase de Producción Plena para Impulsar las Fábricas de IA Basada en Agentes en Todo el Mundo

NVIDIA Vera Rubin está entrando en fase de producción plena, con los principales fabricantes de servidores de Taiwán y líderes de la cadena de suministro global realizando la manufactura a escala y enviando sistemas basados en Vera Rubin, lo que impulsa a los laboratorios de IA, los proveedores de nube y los hiperescaladores para desarrollar la inteligencia del mañana.

NVIDIA Vera Rubin Abre la Frontera de la IA Basada en Agentes

La plataforma NVIDIA Vera Rubin ofrece siete nuevos chips, ahora en plena producción, para escalar las fábricas de IA más grandes del mundo.

Desempeño

Aumento Masivo de la Eficiencia en la Inferencia y el Entrenamiento de IA

El desempeño de inferencia del LLM está sujeto a cambios. El costo por 1 millón de tokens se basa en un modelo de pensamiento Kimi-K2 que usa 32K/8K ISL/OSL y compara NVIDIA GB200 NVL72 y NVIDIA Vera Rubin NVL72.

Reducción de los Costos de Inferencia

NVIDIA Vera Rubin NVL72 ofrece una décima parte del costo por millón de tokens en comparación con NVIDIA GB200 NVL72 para una IA agéntica de razonamiento altamente interactiva y profunda.

Maximización del Rendimiento de la Fábrica de IA

NVIDIA Vera Rubin NVL72 ofrece hasta diez veces más tokens por megavatio que NVIDIA GB200 NVL72, lo que escala la inteligencia dentro de la misma huella de energía.

El desempeño de inferencia del LLM está sujeto a cambios. Tokens por segundo por MW sobre la base del modelo de pensamiento Kimi-K2 que usa 32K/8K ISL/OSL comparando NVIDIA GB200 NVL72 y NVIDIA Vera Rubin NVL72.

El desempeño proyectado puede cambiar. Cantidad de GPU basadas en un modelo MoE 10T entrenado con 100 billones de tokens en un período fijo de 1 mes comparando NVIDIA GB200 NVL72 y NVIDIA Vera Rubin NVL72.

Impulsar la Eficiencia en el Entrenamiento

NVIDIA Vera Rubin NVL72 entrena modelos de combinación de expertos (MoE) con una cuarta parte del número de GPU en comparación con NVIDIA GB200 NVL72.

Rendimiento 35 Veces Mayor para Modelos con Billones de Parámetros

Los sistemas de agentes consumen hasta 15 veces más tokens que las aplicaciones de IA tradicionales. Las fábricas de IA deben ofrecer un volumen de tokens y ventanas contextuales masivas con baja latencia y economía eficiente. Cuando se combina con LPX, Vera Rubin NVL72 ofrece un rendimiento por megavatio hasta 35 veces mayor para modelos de billones de parámetros.

Rendimiento proyectado sujeto a cambios. Gratuito Nivel ($0): modelo de parámetros Qwen-3 de 235 billones con 32K tokens en caché KV. Nivel medio ($3): modelo de parámetros Kimi K2.5 de 1 billón con 128K tokens en caché KV. Nivel alto ($6): modelo de parámetros GPT-MoE de 2 billones con 128K tokens en caché KV. Niveles Premium ($45) y Ultra ($150): modelo de parámetros GPT-MoE de 2 billones con 400K tokens en caché KV.

Impulsar la Era de los Agentes de IA

Dentro de la Plataforma Vera Rubin

GPU NVIDIA Rubin

Las GPU Rubin con HBM4 y el motor Transformer 50 PF NVFP4 están diseñados para la próxima generación de IA.

CPU NVIDIA Vera

Las CPU Vera están diseñadas específicamente para el movimiento de datos y el razonamiento de agentes, lo que ofrece una computación de alto ancho de banda y una eficiencia energética con desempeño determinista.

Switch NVIDIA NVLink 6

Los switches NVLink 6 cuentan con 3.6 terabytes por segundo (TB/s) de ancho de banda escalable de todos a todos por GPU, lo que permite comunicaciones de GPU a GPU de alta velocidad para la IA.

SuperNIC NVIDIA ConnectX-9

Las SuperNIC ConnectX‑9 ofrecen 1.6 terabits por segundo (Tb/s) de ancho de banda por GPU, con acceso remoto directo a memoria (RDMA) programable para redes directas de GPU de baja latencia a escala masiva.

DPU NVIDIA BlueField-4

Las DPU BlueField-4 aceleran el procesamiento de datos en los sectores de almacenamiento, redes, ciberseguridad y escalabilidad elástica en las fábricas de IA.

Óptica Coempaquetada NVIDIA Spectrum-X Ethernet

Los switches de escalabilidad horizontal de Spectrum‑X Ethernet con fotónica de silicio integrada ofrecen una eficiencia energética cinco veces mayor, una resiliencia de red diez veces mayor y un tiempo de actividad hasta cinco veces mayor, en comparación con las redes tradicionales con transceptores conectables.

LPU NVIDIA Groq 3

Este es el acelerador de inferencia para NVIDIA Vera Rubin NVL72, diseñado para satisfacer las demandas de baja latencia y gran contexto de los sistemas basados en agentes. El bastidor NVIDIA Groq 3 LPX cuenta con 256 LPU con 128 GB de SRAM, un ancho de banda de memoria de 40 PB/s y un ancho de banda de expansión de 640 TB/s por bastidor. Se diseñó conjuntamente con Vera Rubin NVL72 para ofrecer un rendimiento de inferencia 35 veces mayor por vatio y hasta 10 veces más oportunidades de ingresos para modelos con billones de parámetros en comparación con Blackwell.

Especificaciones¹

Especificaciones de NVIDIA Vera Rubin NVL72

NVIDIA Vera Rubin NVL72 Superchip NVIDIA Vera Rubin GPU NVIDIA Rubin
Configuración 72 GPU NVIDIA Rubin | 36 CPU NVIDIA Vera 2 GPU NVIDIA Rubin | 1 CPU NVIDIA Vera 1 GPU NVIDIA Rubin
Inferencia de NVFP4 3,600 PFLOPS 100 PFLOPS 50 PFLOPS
Entrenamiento de NVFP4² 2,520 PFLOPS 70 PFLOPS 35 PFLOPS
Entrenamiento de FP8/FP6² 1,260 PFLOPS 35 PFLOPS 17.5 PFLOPS
INT8² 18 POPS 500 TOPS 250 TOPS
FP16/BF16² 288 PFLOPS 8 PFLOPS 4 PFLOPS
TF32² 144 PFLOPS 4 PFLOPS 2 PFLOPS
FP32 9,360 TFLOPS 260 TFLOPS 130 TFLOPS
FP64 2,400 TFLOPS 67 TFLOPS 33 TFLOPS
FP32 SGEMM³ 28,800 TFLOPS 800 TFLOPS 400 TFLOPS
FP64 DGEMM³ 14,400 TFLOPS 400 TFLOPS 200 TFLOPS
Memoria de GPU | Ancho de Banda HBM4 de 20.7 TB | 1,580 TB/s HBM4 de 576 GB | 44 TB/s HBM4 de 288 GB | 22 TB/s
NVLink de NVIDIA Sexta generación
Ancho de Banda de NVLink 260 TB/s
(Ancho de Banda de Switches NVLink 6)
7.2 TB/s 3.6 TB/s
Ancho de banda de NVLink-C2C 65 TB/s 1.8 TB/s -
Recuento de Núcleos de CPU 3,168 núcleos NVIDIA Olympus personalizados (compatibles con Arm®) 88 núcleos NVIDIA Olympus personalizados (compatibles con Arm®) -
Memoria de la CPU LPDDR5X de 54 TB LPDDR5X de 1.5 TB -
Ancho de banda de redes (escalamiento horizontal) 28.8 TB/s 0.8 TB/s 0.4 TB/s
Total de Chips NVIDIA + HBM4 1,296 30 12

1. Información preliminar. Todos los valores están sujetos a cambios.
2. Especificación densa.
3. Desempeño máximo mediante algoritmos de emulación basados en Tensor Core.

Empiece Ahora

Manténgase al Día con las Noticias de NVIDIA

Regístrese para recibir las últimas noticias, actualizaciones y más información de NVIDIA.