Elaborando a próxima fronteira da IA
Visão Geral
O NVIDIA Vera Rubin NVL72 unifica tecnologias de ponta da NVIDIA: 72 GPUs Rubin, 36 CPUs Vera, SuperNICs ConnectX®-9 e DPUs BlueField®-4. Ele aumenta a inteligência em uma plataforma em escala de rack com o switch NVIDIA NVLink™ 6 e se expande para fora com o NVIDIA Quantum-X800 InfiniBand e o Spectrum-X™ Ethernet para impulsionar a revolução industrial de IA em escala.
Desenvolvido com base no design do rack NVIDIA MGX™ NVL72 de terceira geração, o Vera Rubin NVL72 oferece uma transição perfeita em relação às gerações anteriores. Ele oferece treinamento de IA com um quarto das GPUs e inferência de IA a um décimo do custo por milhão de tokens, em comparação com o NVIDIA Blackwell. Com designs de bandejas modulares sem cabos e suporte de mais de 80 parceiros do ecossistema MGX, o supercomputador de IA em escala de rack oferece desempenho de nível internacional com implantação rápida.
Desempenho
O NVIDIA Rubin treina modelos de mistura de especialistas (MoE - Mixture-of-Expert) com um quarto do número de GPUs em relação à arquitetura NVIDIA Blackwell.
Desempenho projetado sujeito a alterações. Número de GPUs com base em um modelo MoE 10T treinado em 100T de tokens em um prazo fixo de 1 mês.
Desempenho de inferência de LLM sujeito a alterações. Custo por milhão de tokens com base no modelo Kimi-K2-Thinking usando 32K/8K ISL/OSL, comparando Blackwell GB200 NVL72 e Rubin NVL72.
O NVIDIA Rubin oferece um décimo do custo por milhão de tokens em comparação com o NVIDIA Blackwell para IA baseada em agentes altamente interativa e com raciocínio profundo.
Inovações Tecnológicas
Especificações¹
| NVIDIA Vera Rubin NVL72 | Superchip NVIDIA Vera Rubin | GPU NVIDIA Rubin | |
|---|---|---|---|
| Configuração | 72 GPUs NVIDIA Rubin | 36 CPUs NVIDIA Vera | 2 GPUs NVIDIA Rubin | 1 CPU NVIDIA Vera | 1 GPU NVIDIA Rubin |
| Inferência NVFP4 | 3.600 PFLOPS | 100 PFLOPS | 50 PFLOPS |
| Treinamento em NVFP4² | 2.520 PFLOPS | 70 PFLOPS | 35 PFLOPS |
| Treinamento em FP8/FP6² | 1.260 PFLOPS | 35 PFLOPS | 17,5 PFLOPS |
| INT8² | 18 POPS | 0,5 POPS | 0,25 POPS |
| FP16/BF16² | 288 PFLOPS | 8 PFLOPS | 4 PFLOPS |
| TF32² | 144 PFLOPS | 4 PFLOPS | 2 PFLOPS |
| FP32 | 9.360 TFLOPS | 260 TFLOPS | 130 TFLOPS |
| FP64 | 2.400 TFLOPS | 67 TFLOPS | 33 TFLOPS |
| FP32 SGEMM³ | 28.800 TFLOPS | 800 TFLOPS | 400 TFLOPS |
| FP64 DGEMM³ | 14.400 TFLOPS | 400 TFLOPS | 200 TFLOPS |
| Memória da GPU | Largura de Banda | 20,7 TB HBM4 | 1.580 TB/s | 576 GB HBM4 | 44 TB/s | 288 GB HBM4 | 22 TB/s |
| Largura de Banda do NVLink | 260 TB/s | 7,2 TB/s | 3,6 TB/s |
| Largura de banda do NVLink-C2C | 65 TB/s | 1,8 TB/s | - |
| Contagem de Núcleos da CPU | 3.168 núcleos NVIDIA Olympus personalizados (compatíveis com Arm®) | 88 núcleos NVIDIA Olympus personalizados (compatíveis com Arm) | - |
| Memória da CPU | LPDDR5X de 54 TB | LPDDR5X de 1,5 TB | - |
| Total de Chips NVIDIA + HBM4 | 1.296 | 30 | 12 |
1. Informações preliminares. Todos os valores estão sujeitos a alterações.
2. Especificação detalhada.
3. Desempenho de pico usando algoritmos de emulação baseados em Tensor Core.
Comece Agora
Inscreva-se para receber as últimas notícias, atualizações e novidades da NVIDIA.