Desarrollo de la próxima frontera de la IA
Descripción General
NVIDIA Vera Rubin NVL72 unifica las tecnologías más avanzadas de NVIDIA: 72 GPUs Rubin, 36 CPUs Vera, ConnectX®-9 SuperNICs™ y DPUs BlueField®-4. Amplía la inteligencia en una plataforma a escala de rack con el conmutador NVIDIA NVLink™ 6 y escala con NVIDIA Quantum-X800 InfiniBand y Spectrum-X™ Ethernet para impulsar la revolución industrial de la IA a gran escala. Cuando se implementa con racks NVIDIA Groq 3 LPX, Vera Rubin NVL72 ofrece una nueva clase de rendimiento de inferencia para modelos de billones de parámetros y contexto de millones de tokens.
Vera Rubin NVL72 se basa en el diseño de rack NVIDIA MGX™ NVL72 de tercera generación, ofreciendo una transición perfecta desde generaciones anteriores. Proporciona entrenamiento de IA con una cuarta parte de las GPUs e inferencia de IA a un décimo del costo por millón de tokens en comparación con NVIDIA Blackwell. Con diseños modulares de bandejas sin cables y apoyo de más de 80 socios del ecosistema MGX, el superordenador de IA a escala de rack ofrece un rendimiento de clase mundial con una implementación rápida.
Desempeño
NVIDIA Rubin entrena modelos de combinación de expertos (MoE) con una cuarta parte del número de GPU que requiere la arquitectura NVIDIA Blackwell.
El desempeño proyectado puede cambiar. Número de GPU basadas en un modelo MoE de 10T entrenado en 100T tokens en un período fijo de 1 mes.
El desempeño de inferencia del LLM está sujeto a cambios. El costo por 1 millón de tokens se basa en un modelo de pensamiento Kimi-K2 que usa 32.000/8.000 ISL/OSL, comparando Blackwell NVL72 y Rubin NVL72.
NVIDIA Rubin ofrece una décima parte del costo por millón de tokens en comparación con NVIDIA Blackwell, haciendo posible una IA agéntica de razonamiento altamente interactiva y profunda.
Avances Tecnológicos
Especificaciones¹
| NVIDIA Vera Rubin NVL72 | Superchip NVIDIA Vera Rubin | GPU NVIDIA Rubin | |
|---|---|---|---|
| Configuración | 72 GPU NVIDIA Rubin | 36 CPU NVIDIA Vera | 2 GPU NVIDIA Rubin | 1 CPU NVIDIA Vera | 1 GPU NVIDIA Rubin |
| Inferencia de NVFP4 | 3,600 PFLOPS | 100 PFLOPS | 50 PFLOPS |
| Entrenamiento de NVFP4² | 2,520 PFLOPS | 70 PFLOPS | 35 PFLOPS |
| Entrenamiento de FP8/FP6² | 1,260 PFLOPS | 35 PFLOPS | 17.5 PFLOPS |
| INT8² | 18 POPS | 0.5 POPS | 0.25 POPS |
| FP16/BF16² | 288 PFLOPS | 8 PFLOPS | 4 PFLOPS |
| TF32² | 144 PFLOPS | 4 PFLOPS | 2 PFLOPS |
| FP32 | 9,360 TFLOPS | 260 TFLOPS | 130 TFLOPS |
| FP64 | 2,400 TFLOPS | 67 TFLOPS | 33 TFLOPS |
| FP32 SGEMM³ | 28,800 TFLOPS | 800 TFLOPS | 400 TFLOPS |
| FP64 DGEMM³ | 14,400 TFLOPS | 400 TFLOPS | 200 TFLOPS |
| Memoria de GPU | Ancho de Banda | HBM4 de 20.7 TB | 1,580 TB/s | HBM4 de 576 GB | 44 TB/s | HBM4 de 288 GB | 22 TB/s |
| Ancho de Banda de NVLink | 260 TB/s | 7.2 TB/s | 3.6 TB/s |
| Ancho de banda NVLink-C2C | 65 TB/s | 1.8 TB/s | - |
| Recuento de Núcleos de CPU | 3,168 núcleos NVIDIA Olympus personalizados (compatibles con Arm®) | 88 núcleos NVIDIA Olympus personalizados (compatibles con Arm®) | - |
| Memoria de la CPU | LPDDR5X de 54 TB | LPDDR5X de 1.5 TB | - |
| Total de Chips NVIDIA + HBM4 | 1,296 | 30 | 12 |
1. Información preliminar. Todos los valores están sujetos a cambios.
2. Especificación densa.
3. Desempeño máximo mediante algoritmos de emulación basados en Tensor Core.
Empiece Ahora
Regístrese para recibir las últimas noticias, actualizaciones y más información de NVIDIA.