Rack Único NVIDIA Vera Rubin NVL72

NVIDIA Vera Rubin NVL72

Elaborando a próxima fronteira da IA

Visão Geral

Seis Novos Chips, Um Supercomputador de IA

O NVIDIA Vera Rubin NVL72 unifica tecnologias de ponta da NVIDIA — 72 GPUs Rubin, 36 CPUs Vera, ConnectX®-9 SuperNICs™ e DPUs BlueField®-4. Ele amplia a inteligência em uma plataforma de escala de rack com o switch NVIDIA NVLink™ 6 e expande com o NVIDIA Quantum-X800 InfiniBand e o Spectrum-X™ Ethernet para impulsionar a revolução industrial da IA em larga escala. Quando implantado com racks NVIDIA Groq 3 LPX, o Vera Rubin NVL72 oferece uma nova classe de desempenho de inferência para modelos com trilhões de parâmetros e contexto de milhões de tokens.

O Vera Rubin NVL72 é construído sobre o design de rack NVIDIA MGX™ NVL72 de terceira geração, oferecendo uma transição perfeita das gerações anteriores. Ele fornece treinamento de IA com um quarto das GPUs e inferência de IA a um décimo do custo por milhão de tokens em comparação com o NVIDIA Blackwell. Com designs modulares de bandejas sem cabos e suporte de mais de 80 parceiros do ecossistema MGX, o supercomputador de IA em escala de rack oferece desempenho de classe mundial com implantação rápida.

A NVIDIA Lança a Próxima Geração de IA com Rubin

A plataforma de ponta escala a adoção convencional, reduzindo o custo por token com cinco avanços para modelos de raciocínio e IA baseada em agentes.

NVIDIA Vera Rubin Abre a Fronteira da IA Baseada em Agentes

A plataforma NVIDIA Vera Rubin oferece sete novos chips, agora em plena produção, para escalar as maiores fábricas de IA do mundo.

Desempenho

Ganhos Enormes de Eficiência em Treinamento e Inferência de IA

Aumento da Eficiência do Treinamento

O NVIDIA Rubin treina modelos de mistura de especialistas (MoE - Mixture-of-Expert) com um quarto do número de GPUs em relação à arquitetura NVIDIA Blackwell.

Desempenho projetado sujeito a alterações. Número de GPUs com base em um modelo MoE 10T treinado em 100T de tokens em um prazo fixo de 1 mês.

Desempenho de inferência de LLM sujeito a alterações. Custo por 1 milhão de tokens com base no modelo Kimi-K2-Thinking usando o 32K/8K ISL/OSL, comparando Blackwell NVL72 e Rubin NVL72.

Redução dos Custos de Inferência.

O NVIDIA Rubin oferece um décimo do custo por milhão de tokens em comparação com o NVIDIA Blackwell para IA baseada em agentes altamente interativa e com raciocínio profundo.

Inovações Tecnológicas

Por Dentro do Supercomputador de IA

GPU NVIDIA Rubin

GPUs Rubin com HBM4 e 50 PF NVFP4 Transformer Engine desenvolvidas para a próxima geração de IA.

CPU NVIDIA Vera

As CPUs Vera são desenvolvidas especificamente para movimentação de dados e processamento lógico baseado em agentes, oferecendo computação de alta largura de banda e eficiência energética com desempenho determinista.

Switch NVIDIA NVLink 6

Os switches NVLink 6 apresentam 3,6 terabytes por segundo (TB/s) de largura de banda all-to-all por GPU para escalonamento vertical, permitindo comunicações de alta velocidade entre GPUs para cargas de IA.

NVIDIA ConnectX-9 SuperNIC

Os SuperNICs ConnectX‑9 oferecem 1,6 terabits por segundo (Tb/s) de largura de banda por GPU, com acesso remoto direto à memória (RDMA) programável para redes diretas de GPU de baixa latência em larga escala.

DPU NVIDIA BlueField-4

As DPUs BlueField-4 aceleram o processamento de dados em armazenamento, rede, cibersegurança e escalabilidade elástica em fábricas de IA.

Óptica em Pacotes Compartilhados com Ethernet NVIDIA Spectrum-X

Os switches de escalabilidade Ethernet Spectrum‑X com fotônicos de silício integrados oferecem eficiência energética cinco vezes melhor, resiliência de rede dez vezes maior e tempo de atividade até cinco vezes maior em relação às redes tradicionais com transceptores plugáveis.

NVIDIA Groq 3 LPU

Este é o acelerador de inferência para o NVIDIA Vera Rubin NVL72, projetado para atender às demandas de baixa latência e grande contexto dos sistemas baseados em agentes. O rack NVIDIA Groq 3 LPX apresenta 256 LPUs com 128 GB de SRAM, largura de banda de memória de 40 PB/s e largura de banda de expansão de 640 TB/s por rack. Ele é co-projetado com o Vera Rubin NVL72 para oferecer desempenho de inferência 35 vezes maior por watt e até 10 vezes mais oportunidade de receita para modelos com trilhões de parâmetros em relação ao Blackwell.

Especificações¹

Especificações do NVIDIA Vera Rubin NVL72

  NVIDIA Vera Rubin NVL72 Superchip NVIDIA Vera Rubin GPU NVIDIA Rubin
Configuração 72 GPUs NVIDIA Rubin | 36 CPUs NVIDIA Vera 2 GPUs NVIDIA Rubin | 1 CPU NVIDIA Vera 1 GPU NVIDIA Rubin
Inferência NVFP4 3.600 PFLOPS 100 PFLOPS 50 PFLOPS
Treinamento em NVFP4² 2.520 PFLOPS 70 PFLOPS 35 PFLOPS
Treinamento em FP8/FP6² 1.260 PFLOPS 35 PFLOPS 17,5 PFLOPS
INT8² 18 POPS 0,5 POPS 0,25 POPS
FP16/BF16² 288 PFLOPS 8 PFLOPS 4 PFLOPS
TF32² 144 PFLOPS 4 PFLOPS 2 PFLOPS
FP32 9.360 TFLOPS 260 TFLOPS 130 TFLOPS
FP64 2.400 TFLOPS 67 TFLOPS 33 TFLOPS
FP32 SGEMM³ 28.800 TFLOPS 800 TFLOPS 400 TFLOPS
FP64 DGEMM³ 14.400 TFLOPS 400 TFLOPS 200 TFLOPS
Memória da GPU | Largura de Banda 20,7 TB HBM4 | 1.580 TB/s 576 GB HBM4 | 44 TB/s 288 GB HBM4 | 22 TB/s
Largura de Banda do NVLink 260 TB/s 7,2 TB/s 3,6 TB/s
Largura de banda do NVLink-C2C 65 TB/s 1,8 TB/s -
Contagem de Núcleos da CPU 3.168 núcleos NVIDIA Olympus personalizados (compatíveis com Arm®) 88 núcleos NVIDIA Olympus personalizados (compatíveis com Arm) -
Memória da CPU LPDDR5X de 54 TB LPDDR5X de 1,5 TB -
Total de Chips NVIDIA + HBM4 1.296 30 12

1.  Informações preliminares. Todos os valores estão sujeitos a alterações.
2.  Especificação detalhada.
3.  Desempenho de pico usando algoritmos de emulação baseados em Tensor Core.

Comece Agora

Mantenha-se em Dia com as Notícias da NVIDIA

Inscreva-se para receber as últimas notícias, atualizações e novidades da NVIDIA.