Elaborando a próxima fronteira da IA baseada em agentes.
Visão Geral
O NVIDIA Vera Rubin NVL72 unifica tecnologias de ponta da NVIDIA — 72 GPUs Rubin, 36 CPUs Vera, ConnectX®-9 SuperNICs™ e DPUs BlueField®-4. Ele amplia a inteligência em uma plataforma de escala de rack com o switch NVIDIA NVLink™ 6 e expande com o NVIDIA Quantum-X800 InfiniBand e o Spectrum-X™ Ethernet para impulsionar a revolução industrial da IA em larga escala. Quando implantado com racks NVIDIA Groq 3 LPX, o Vera Rubin NVL72 oferece uma nova classe de desempenho de inferência para modelos com trilhões de parâmetros e contexto de milhões de tokens.
O Vera Rubin NVL72 é construído com base no design de rack NVIDIA MGX™ NVL72 de terceira geração, oferecendo uma transição perfeita das gerações anteriores. Ele fornece treinamento de IA com um quarto das GPUs e inferência de IA a um décimo do custo por milhão de tokens em comparação com o NVIDIA Blackwell. Com designs modulares de bandejas sem cabos e suporte de mais de 80 parceiros do ecossistema MGX, o supercomputador de IA em escala de rack oferece desempenho de classe mundial com implantação rápida.
Desempenho
Desempenho de inferência de LLM sujeito a alterações. Custo por 1 milhão de tokens com base no modelo Kimi-K2-Thinking usando ISL/OSL de 32K/8K, comparando NVIDIA GB200 NVL72 e NVIDIA Vera Rubin NVL72.
O NVIDIA Vera Rubin NVL72 oferece um décimo do custo por milhão de tokens em comparação com o NVIDIA GB200 NVL72 para IA baseada em agentes altamente interativa e com raciocínio profundo.
O NVIDIA Vera Rubin NVL72 oferece até dez vezes mais tokens por megawatt do que o NVIDIA GB200 NVL72, escalando a inteligência com a mesma utilização de energia.
Desempenho de inferência de LLM sujeito a alterações. Tokens por segundo por MW com base no modelo Kimi-K2 Thinking usando ISL/OSL de 32K/8K, comparando o NVIDIA GB200 NVL72 e o NVIDIA Vera Rubin NVL72.
Desempenho projetado sujeito a alterações. Número de GPUs com base em um modelo MoE de 10T treinado com 100T tokens em um prazo fixo de 1 mês, comparando o NVIDIA GB200 NVL72 e o NVIDIA Vera Rubin NVL72.
O NVIDIA Vera Rubin NVL72 treina modelos mistura de especialistas (MoE) com um quarto do número de GPUs em comparação com o NVIDIA GB200 NVL72.
Os sistemas baseados em agentes consomem até 15 vezes mais tokens do que as aplicações de IA tradicionais. As fábricas de IA devem atender ao volume de tokens e grandes janelas de contexto com baixa latência e economia eficiente. Quando combinado com o LPX, o NVIDIA Vera Rubin NVL72 oferece uma taxa de transferência por megawatt até 35 vezes maior para modelos de trilhões de parâmetros.
Desempenho projetado sujeito a mudanças. Gratuito Nível ($0): modelo de parâmetros de 235 bilhões de Qwen-3 com 32K tokens em cache de KV. Nível médio ($3): modelo de parâmetros de 1 trilhão de Kimi K2.5 com 128K tokens em cache de KV. Nível alto ($6): modelo de parâmetros de 2 trilhões de GPT-MoE com 128K tokens em cache de KV. Níveis Premium ($45) e Ultra ($150): modelo de parâmetros de 2 trilhões de GPT-MoE com 400K tokens em cache de KV.
Impulsionando a Era dos Agentes de IA
Especificações¹
| NVIDIA Vera Rubin NVL72 | Superchip NVIDIA Vera Rubin | GPU NVIDIA Rubin | |
|---|---|---|---|
| Configuração | 72 GPUs NVIDIA Rubin | 36 CPUs NVIDIA Vera | 2 GPUs NVIDIA Rubin | 1 CPU NVIDIA Vera | 1 GPU NVIDIA Rubin |
| Inferência NVFP4 | 3.600 PFLOPS | 100 PFLOPS | 50 PFLOPS |
| Treinamento em NVFP4² | 2.520 PFLOPS | 70 PFLOPS | 35 PFLOPS |
| Treinamento em FP8/FP6² | 1.260 PFLOPS | 35 PFLOPS | 17,5 PFLOPS |
| INT8² | 18 POPS | 500 TOPS | 250 TOPS |
| FP16/BF16² | 288 PFLOPS | 8 PFLOPS | 4 PFLOPS |
| TF32² | 144 PFLOPS | 4 PFLOPS | 2 PFLOPS |
| FP32 | 9.360 TFLOPS | 260 TFLOPS | 130 TFLOPS |
| FP64 | 2.400 TFLOPS | 67 TFLOPS | 33 TFLOPS |
| FP32 SGEMM³ | 28.800 TFLOPS | 800 TFLOPS | 400 TFLOPS |
| FP64 DGEMM³ | 14.400 TFLOPS | 400 TFLOPS | 200 TFLOPS |
| Memória da GPU | Largura de Banda | 20,7 TB HBM4 | 1.580 TB/s | 576 GB HBM4 | 44 TB/s | 288 GB HBM4 | 22 TB/s |
| NVIDIA NVLink | Sexta Geração | ||
| Largura de Banda do NVLink | 260 TB/s (Largura de Banda do Switch NVLink 6) |
7,2 TB/s | 3,6 TB/s |
| Largura de banda do NVLink-C2C | 65 TB/s | 1,8 TB/s | - |
| Contagem de Núcleos da CPU | 3.168 núcleos NVIDIA Olympus personalizados (compatíveis com Arm®) | 88 núcleos NVIDIA Olympus personalizados (compatíveis com Arm®) | - |
| Memória da CPU | LPDDR5X de 54 TB | LPDDR5X de 1,5 TB | - |
| Largura de Banda de Rede (Escalabilidade Horizontal) | 28,8 TB/s | 0,8 TB/s | 0,4 TB/s |
| Total de Chips NVIDIA + HBM4 | 1.296 | 30 | 12 |
1. Informações preliminares. Todos os valores estão sujeitos a alterações.
2. Especificação detalhada.
3. Desempenho de pico usando algoritmos de emulação baseados em Tensor Core.
Comece agora
Inscreva-se para receber as últimas notícias, atualizações e novidades da NVIDIA.