Construyendo la próxima frontera de la IA
Descripción
NVIDIA Vera Rubin NVL72 integra las tecnologías de vanguardia de NVIDIA: 72 unidades GPU Rubin, 36 CPU Vera, varias SuperNIC ConnectX®-9 y unidades DPU BlueField®-4. Realiza un escalamiento de la inteligencia en una plataforma a escala de bastidor con el conmutador NVIDIA NVLink™ 6 y un escalamiento horizontal con NVIDIA Quantum-X800 InfiniBand y Spectrum-X™ Ethernet para propulsar la revolución industrial de la IA a escala.
Basada en el diseño de bastidor NVIDIA MGX™ NVL72 de tercera generación, Vera Rubin NVL72 ofrece una transición fluida desde las generaciones anteriores. Proporciona entrenamiento de IA con una cuarta parte de las GPU e inferencia de IA a un coste por millón de tokens siete veces menor en comparación con NVIDIA Blackwell. Con diseños de bandejas modulares sin cables y soporte de más de 80 partners del ecosistema MGX, el superordenador de IA a escala de bastidor proporciona un rendimiento de clase mundial con una implementación rápida.
Rendimiento
NVIDIA Rubin entrena modelos de mezcla de expertos (MoE) con una cuarta parte de las GPU en la arquitectura NVIDIA Blackwell.
El rendimiento previsto está sujeto a cambios. Número de GPU basado en un modelo de mezcla de expertos (MoE) de 10 000 billones entrenado en 100 000 billones de tókenes en un periodo fijo de 1 mes.
El rendimiento de inferencia de LLM está sujeto a cambios. Coste por 1 millón de tokens basado en un modelo Kimi-K2-Thinking que utiliza 32K/8K ISL/OSL y compara Blackwell GB200 NVL72 y Rubin NVL72.
NVIDIA Rubin tiene una décima parte del coste por millón de tokens en comparación con NVIDIA Blackwell para una IA altamente interactiva y de razonamiento profundo basada en agentes.
Avances tecnológicos
Especificaciones¹
| NVIDIA Vera Rubin NVL72 | Superchip NVIDIA Vera Rubin | GPU NVIDIA Rubin | |
|---|---|---|---|
| Configuración | 72 GPU NVIDIA Rubin | 36 CPU NVIDIA Vera | 2 GPU Rubin | 1 CPU Vera | 1 GPU Rubin |
| Inferencia NVFP4 | 3600 PFLOPS | 100 PFLOPS | 50 PFLOPS |
| Entrenamiento NVFP4 | 2520 PFLOPS | 70 PFLOPS | 35 PFLOPS |
| Entrenamiento FP8/FP6 | 1260 PFLOPS | 35 PFLOPS | 17,5 PFLOPS |
| INT8² denso | 18 POPS | 0,5 POPS | 0,25 POPS |
| FP16/BF16² denso | 288 PFLOPS | 8 PETAFLOPS | 4 PETAFLOPS |
| TF32² denso | 144 PFLOPS | 4 PETAFLOPS | 2 PFLOPS |
| FP32 | 9360 TERAFLOPS | 260 TERAFLOPS | 130 TERAFLOPS |
| FP64 | 2400 TERAFLOPS | 67 TFLOPS | 33 TERAFLOPS |
| FP32 SGEMM³ | 28 800 TERAFLOPS | 800 TERAFLOPS | 400 TERAFLOPS |
| FP64 DGEMM³ | 14 400 TERAFLOPS | 400 TERAFLOPS | 200 TERAFLOPS |
| Memoria de la GPU | Ancho de banda | 20,7 TB HBM4 | 1580 TB/s | 576 GB HBM4 | 44 TB/s | 288 GB HBM4 | 22 TB/s |
| Ancho de banda de NVLink | 260 TB/s | 7,2 TB/s | 3,6 TB/s |
| Ancho de banda de NVLink-C2C | 65 TB/s | 1,8 TB/s | - |
| Cantidad de núcleos de CPU | 3168 núcleos NVIDIA Olympus personalizados (compatible con Arm) | 88 núcleos NVIDIA Olympus personalizados (compatible con Arm) | - |
| Memoria de la CPU | 54 TB LPDDR5X | 1,5 TB LPDDR5X | - |
| Total de chips NVIDIA + HBM4 | 1296 | 30 | 12 |
1. Información preliminar, todos los valores están actualizados y sujetos a cambios
2. Especificación densa
3. Rendimiento máximo utilizando algoritmos de emulación basados en Tensor Core
Empezar
Suscríbase para obtener las últimas noticias, actualizaciones y mucho más de NVIDIA.