Rack Único NVIDIA Vera Rubin NVL72

NVIDIA Vera Rubin NVL72

Elaborando a próxima fronteira da IA baseada em agentes.

Visão Geral

Sete Novos Chips, Um Supercomputador de IA

O NVIDIA Vera Rubin NVL72 unifica tecnologias de ponta da NVIDIA — 72 GPUs Rubin, 36 CPUs Vera, ConnectX®-9 SuperNICs™ e DPUs BlueField®-4. Ele amplia a inteligência em uma plataforma de escala de rack com o switch NVIDIA NVLink™ 6 e expande com o NVIDIA Quantum-X800 InfiniBand e o Spectrum-X™ Ethernet para impulsionar a revolução industrial da IA em larga escala. Quando implantado com racks NVIDIA Groq 3 LPX, o Vera Rubin NVL72 oferece uma nova classe de desempenho de inferência para modelos com trilhões de parâmetros e contexto de milhões de tokens.

O Vera Rubin NVL72 é construído com base no design de rack NVIDIA MGX™ NVL72 de terceira geração, oferecendo uma transição perfeita das gerações anteriores. Ele fornece treinamento de IA com um quarto das GPUs e inferência de IA a um décimo do custo por milhão de tokens em comparação com o NVIDIA Blackwell. Com designs modulares de bandejas sem cabos e suporte de mais de 80 parceiros do ecossistema MGX, o supercomputador de IA em escala de rack oferece desempenho de classe mundial com implantação rápida.

NVIDIA Vera Rubin Entra em Plena Produção para Impulsionar Fábricas de IA Baseada em Agentes em Todo o Mundo

O NVIDIA Vera Rubin está entrando em plena produção, com os principais fabricantes de servidores de Taiwan e líderes globais da cadeia de suprimentos produzindo em escala e enviando sistemas baseados no Vera Rubin — impulsionando laboratórios de IA, provedores de nuvem e hiperescaladores na criação da inteligência de amanhã.

NVIDIA Vera Rubin Abre a Fronteira da IA Baseada em Agentes

A plataforma NVIDIA Vera Rubin oferece sete novos chips, agora em plena produção, para escalar as maiores fábricas de IA do mundo.

Desempenho

Ganhos Enormes de Eficiência em Treinamento e Inferência de IA

Desempenho de inferência de LLM sujeito a alterações. Custo por 1 milhão de tokens com base no modelo Kimi-K2-Thinking usando ISL/OSL de 32K/8K, comparando NVIDIA GB200 NVL72 e NVIDIA Vera Rubin NVL72.

Redução dos Custos de Inferência.

O NVIDIA Vera Rubin NVL72 oferece um décimo do custo por milhão de tokens em comparação com o NVIDIA GB200 NVL72 para IA baseada em agentes altamente interativa e com raciocínio profundo.

Maximizando a Taxa de Processamento de Fábricas de IA

O NVIDIA Vera Rubin NVL72 oferece até dez vezes mais tokens por megawatt do que o NVIDIA GB200 NVL72, escalando a inteligência com a mesma utilização de energia.

Desempenho de inferência de LLM sujeito a alterações. Tokens por segundo por MW com base no modelo Kimi-K2 Thinking usando ISL/OSL de 32K/8K, comparando o NVIDIA GB200 NVL72 e o NVIDIA Vera Rubin NVL72.

Desempenho projetado sujeito a alterações. Número de GPUs com base em um modelo MoE de 10T treinado com 100T tokens em um prazo fixo de 1 mês, comparando o NVIDIA GB200 NVL72 e o NVIDIA Vera Rubin NVL72.

Aumento da Eficiência do Treinamento

O NVIDIA Vera Rubin NVL72 treina modelos mistura de especialistas (MoE) com um quarto do número de GPUs em comparação com o NVIDIA GB200 NVL72.

Taxa de Processamento 35 vezes Maior para Modelos com Trilhões de Parâmetros

Os sistemas baseados em agentes consomem até 15 vezes mais tokens do que as aplicações de IA tradicionais. As fábricas de IA devem atender ao volume de tokens e grandes janelas de contexto com baixa latência e economia eficiente. Quando combinado com o LPX, o NVIDIA Vera Rubin NVL72 oferece uma taxa de transferência por megawatt até 35 vezes maior para modelos de trilhões de parâmetros.

Desempenho projetado sujeito a mudanças. Gratuito Nível ($0): modelo de parâmetros de 235 bilhões de Qwen-3 com 32K tokens em cache de KV. Nível médio ($3): modelo de parâmetros de 1 trilhão de Kimi K2.5 com 128K tokens em cache de KV. Nível alto ($6): modelo de parâmetros de 2 trilhões de GPT-MoE com 128K tokens em cache de KV. Níveis Premium ($45) e Ultra ($150): modelo de parâmetros de 2 trilhões de GPT-MoE com 400K tokens em cache de KV.

Impulsionando a Era dos Agentes de IA

Por Dentro da Plataforma Vera Rubin

GPU NVIDIA Rubin

GPUs Rubin com HBM4 e 50 PF NVFP4 Transformer Engine desenvolvidas para a próxima geração de IA.

CPU NVIDIA Vera

As CPUs Vera são desenvolvidas especificamente para movimentação de dados e processamento lógico baseado em agentes, oferecendo computação de alta largura de banda e eficiência energética com desempenho determinista.

Switch NVIDIA NVLink 6

Os switches NVLink 6 apresentam 3,6 terabytes por segundo (TB/s) de largura de banda all-to-all por GPU para escalonamento vertical, permitindo comunicações de alta velocidade entre GPUs para cargas de IA.

NVIDIA ConnectX-9 SuperNIC

Os SuperNICs ConnectX‑9 oferecem 1,6 terabits por segundo (Tb/s) de largura de banda por GPU, com acesso remoto direto à memória (RDMA) programável para redes diretas de GPU de baixa latência em larga escala.

DPU NVIDIA BlueField-4

As DPUs BlueField-4 aceleram o processamento de dados em armazenamento, rede, cibersegurança e escalabilidade elástica em fábricas de IA.

Óptica em Pacotes Compartilhados com Ethernet NVIDIA Spectrum-X

Os switches de escalabilidade Ethernet Spectrum‑X com fotônicos de silício integrados oferecem eficiência energética cinco vezes melhor, resiliência de rede dez vezes maior e tempo de atividade até cinco vezes maior em relação às redes tradicionais com transceptores plugáveis.

NVIDIA Groq 3 LPU

Este é o acelerador de inferência para o NVIDIA Vera Rubin NVL72, projetado para atender às demandas de baixa latência e grande contexto dos sistemas baseados em agentes. O rack NVIDIA Groq 3 LPX apresenta 256 LPUs com 128 GB de SRAM, largura de banda de memória de 40 PB/s e largura de banda de expansão de 640 TB/s por rack. Ele é co-projetado com o Vera Rubin NVL72 para oferecer desempenho de inferência 35 vezes maior por watt e até 10 vezes mais oportunidade de receita para modelos com trilhões de parâmetros em relação ao Blackwell.

Especificações¹

Especificações do NVIDIA Vera Rubin NVL72

NVIDIA Vera Rubin NVL72 Superchip NVIDIA Vera Rubin GPU NVIDIA Rubin
Configuração 72 GPUs NVIDIA Rubin | 36 CPUs NVIDIA Vera 2 GPUs NVIDIA Rubin | 1 CPU NVIDIA Vera 1 GPU NVIDIA Rubin
Inferência NVFP4 3.600 PFLOPS 100 PFLOPS 50 PFLOPS
Treinamento em NVFP4² 2.520 PFLOPS 70 PFLOPS 35 PFLOPS
Treinamento em FP8/FP6² 1.260 PFLOPS 35 PFLOPS 17,5 PFLOPS
INT8² 18 POPS 500 TOPS 250 TOPS
FP16/BF16² 288 PFLOPS 8 PFLOPS 4 PFLOPS
TF32² 144 PFLOPS 4 PFLOPS 2 PFLOPS
FP32 9.360 TFLOPS 260 TFLOPS 130 TFLOPS
FP64 2.400 TFLOPS 67 TFLOPS 33 TFLOPS
FP32 SGEMM³ 28.800 TFLOPS 800 TFLOPS 400 TFLOPS
FP64 DGEMM³ 14.400 TFLOPS 400 TFLOPS 200 TFLOPS
Memória da GPU | Largura de Banda 20,7 TB HBM4 | 1.580 TB/s 576 GB HBM4 | 44 TB/s 288 GB HBM4 | 22 TB/s
NVIDIA NVLink Sexta Geração
Largura de Banda do NVLink 260 TB/s
(Largura de Banda do Switch NVLink 6)
7,2 TB/s 3,6 TB/s
Largura de banda do NVLink-C2C 65 TB/s 1,8 TB/s -
Contagem de Núcleos da CPU 3.168 núcleos NVIDIA Olympus personalizados (compatíveis com Arm®) 88 núcleos NVIDIA Olympus personalizados (compatíveis com Arm®) -
Memória da CPU LPDDR5X de 54 TB LPDDR5X de 1,5 TB -
Largura de Banda de Rede (Escalabilidade Horizontal) 28,8 TB/s 0,8 TB/s 0,4 TB/s
Total de Chips NVIDIA + HBM4 1.296 30 12

1. Informações preliminares. Todos os valores estão sujeitos a alterações.
2. Especificação detalhada.
3. Desempenho de pico usando algoritmos de emulação baseados em Tensor Core.

Comece agora

Mantenha-se em Dia com as Notícias da NVIDIA

Inscreva-se para receber as últimas notícias, atualizações e novidades da NVIDIA.