NVIDIA Vera Rubin NVL72

Elaborando a próxima fronteira da IA baseada em agentes.

Visão Geral

Sete Novos Chips, Um Supercomputador de IA

O NVIDIA Vera Rubin NVL72 unifica tecnologias de ponta da NVIDIA — 72 GPUs Rubin, 36 CPUs Vera, ConnectX®-9 SuperNICs™ e DPUs BlueField®-4. Ele amplia a inteligência em uma plataforma de escala de rack com o switch NVIDIA NVLink™ 6 e expande com o NVIDIA Quantum-X800 InfiniBand e o Spectrum-X™ Ethernet para impulsionar a revolução industrial da IA em larga escala. Quando implantado com racks NVIDIA Groq 3 LPX, o Vera Rubin NVL72 oferece uma nova classe de desempenho de inferência para modelos com trilhões de parâmetros e contexto de milhões de tokens.

O Vera Rubin NVL72 é construído com base no design de rack NVIDIA MGX™ NVL72 de terceira geração, oferecendo uma transição perfeita das gerações anteriores. Ele fornece treinamento de IA com um quarto das GPUs e inferência de IA a um décimo do custo por milhão de tokens em comparação com o NVIDIA Blackwell. Com designs modulares de bandejas sem cabos e suporte de mais de 80 parceiros do ecossistema MGX, o supercomputador de IA em escala de rack oferece desempenho de classe mundial com implantação rápida.

NVIDIA Vera Rubin Entra em Plena Produção para Impulsionar Fábricas de IA Baseada em Agentes em Todo o Mundo

O NVIDIA Vera Rubin está entrando em plena produção, com os principais fabricantes de servidores de Taiwan e líderes globais da cadeia de suprimentos produzindo em escala e enviando sistemas baseados no Vera Rubin — impulsionando laboratórios de IA, provedores de nuvem e hiperescaladores na criação da inteligência de amanhã.

Leia o Comunicado à Imprensa

NVIDIA Vera Rubin Abre a Fronteira da IA Baseada em Agentes

A plataforma NVIDIA Vera Rubin oferece sete novos chips, agora em plena produção, para escalar as maiores fábricas de IA do mundo.

Leia o Comunicado à Imprensa

Desempenho

Ganhos Enormes de Eficiência em Treinamento e Inferência de IA

Desempenho de inferência de LLM sujeito a alterações. Custo por 1 milhão de tokens com base no modelo Kimi-K2-Thinking usando ISL/OSL de 32K/8K, comparando NVIDIA GB200 NVL72 e NVIDIA Vera Rubin NVL72.

Redução dos Custos de Inferência.

O NVIDIA Vera Rubin NVL72 oferece um décimo do custo por milhão de tokens em comparação com o NVIDIA GB200 NVL72 para IA baseada em agentes altamente interativa e com raciocínio profundo.

Maximizando a Taxa de Processamento de Fábricas de IA

O NVIDIA Vera Rubin NVL72 oferece até dez vezes mais tokens por megawatt do que o NVIDIA GB200 NVL72, escalando a inteligência com a mesma utilização de energia.

Desempenho de inferência de LLM sujeito a alterações. Tokens por segundo por MW com base no modelo Kimi-K2 Thinking usando ISL/OSL de 32K/8K, comparando o NVIDIA GB200 NVL72 e o NVIDIA Vera Rubin NVL72.

Desempenho projetado sujeito a alterações. Número de GPUs com base em um modelo MoE de 10T treinado com 100T tokens em um prazo fixo de 1 mês, comparando o NVIDIA GB200 NVL72 e o NVIDIA Vera Rubin NVL72.

Aumento da Eficiência do Treinamento

O NVIDIA Vera Rubin NVL72 treina modelos mistura de especialistas (MoE) com um quarto do número de GPUs em comparação com o NVIDIA GB200 NVL72.

Taxa de Processamento 35 vezes Maior para Modelos com Trilhões de Parâmetros

Os sistemas baseados em agentes consomem até 15 vezes mais tokens do que as aplicações de IA tradicionais. As fábricas de IA devem atender ao volume de tokens e grandes janelas de contexto com baixa latência e economia eficiente. Quando combinado com o LPX, o NVIDIA Vera Rubin NVL72 oferece uma taxa de transferência por megawatt até 35 vezes maior para modelos de trilhões de parâmetros.

Desempenho projetado sujeito a mudanças. Gratuito Nível ($0): modelo de parâmetros de 235 bilhões de Qwen-3 com 32K tokens em cache de KV. Nível médio ($3): modelo de parâmetros de 1 trilhão de Kimi K2.5 com 128K tokens em cache de KV. Nível alto ($6): modelo de parâmetros de 2 trilhões de GPT-MoE com 128K tokens em cache de KV. Níveis Premium ($45) e Ultra ($150): modelo de parâmetros de 2 trilhões de GPT-MoE com 400K tokens em cache de KV.

Impulsionando a Era dos Agentes de IA

Por Dentro da Plataforma Vera Rubin

GPU NVIDIA Rubin

GPUs Rubin com HBM4 e 50 PF NVFP4 Transformer Engine desenvolvidas para a próxima geração de IA.

Saiba mais

CPU NVIDIA Vera

As CPUs Vera são desenvolvidas especificamente para movimentação de dados e processamento lógico baseado em agentes, oferecendo computação de alta largura de banda e eficiência energética com desempenho determinista.

Saiba mais

Switch NVIDIA NVLink 6

Os switches NVLink 6 apresentam 3,6 terabytes por segundo (TB/s) de largura de banda all-to-all por GPU para escalonamento vertical, permitindo comunicações de alta velocidade entre GPUs para cargas de IA.

Saiba mais

NVIDIA ConnectX-9 SuperNIC

Os SuperNICs ConnectX‑9 oferecem 1,6 terabits por segundo (Tb/s) de largura de banda por GPU, com acesso remoto direto à memória (RDMA) programável para redes diretas de GPU de baixa latência em larga escala.

Saiba mais

DPU NVIDIA BlueField-4

As DPUs BlueField-4 aceleram o processamento de dados em armazenamento, rede, cibersegurança e escalabilidade elástica em fábricas de IA.

Saiba mais

Óptica em Pacotes Compartilhados com Ethernet NVIDIA Spectrum-X

Os switches de escalabilidade Ethernet Spectrum‑X com fotônicos de silício integrados oferecem eficiência energética cinco vezes melhor, resiliência de rede dez vezes maior e tempo de atividade até cinco vezes maior em relação às redes tradicionais com transceptores plugáveis.

Saiba mais

NVIDIA Groq 3 LPU

Este é o acelerador de inferência para o NVIDIA Vera Rubin NVL72, projetado para atender às demandas de baixa latência e grande contexto dos sistemas baseados em agentes. O rack NVIDIA Groq 3 LPX apresenta 256 LPUs com 128 GB de SRAM, largura de banda de memória de 40 PB/s e largura de banda de expansão de 640 TB/s por rack. Ele é co-projetado com o Vera Rubin NVL72 para oferecer desempenho de inferência 35 vezes maior por watt e até 10 vezes mais oportunidade de receita para modelos com trilhões de parâmetros em relação ao Blackwell.

Saiba mais

Especificações¹

Especificações do NVIDIA Vera Rubin NVL72

	NVIDIA Vera Rubin NVL72	Superchip NVIDIA Vera Rubin	GPU NVIDIA Rubin
Configuração	72 GPUs NVIDIA Rubin \| 36 CPUs NVIDIA Vera	2 GPUs NVIDIA Rubin \| 1 CPU NVIDIA Vera	1 GPU NVIDIA Rubin
Inferência NVFP4	3.600 PFLOPS	100 PFLOPS	50 PFLOPS
Treinamento em NVFP4²	2.520 PFLOPS	70 PFLOPS	35 PFLOPS
Treinamento em FP8/FP6²	1.260 PFLOPS	35 PFLOPS	17,5 PFLOPS
INT8²	18 POPS	500 TOPS	250 TOPS
FP16/BF16²	288 PFLOPS	8 PFLOPS	4 PFLOPS
TF32²	144 PFLOPS	4 PFLOPS	2 PFLOPS
FP32	9.360 TFLOPS	260 TFLOPS	130 TFLOPS
FP64	2.400 TFLOPS	67 TFLOPS	33 TFLOPS
FP32 SGEMM³	28.800 TFLOPS	800 TFLOPS	400 TFLOPS
FP64 DGEMM³	14.400 TFLOPS	400 TFLOPS	200 TFLOPS
Memória da GPU \| Largura de Banda	20,7 TB HBM4 \| 1.580 TB/s	576 GB HBM4 \| 44 TB/s	288 GB HBM4 \| 22 TB/s
NVIDIA NVLink	Sexta Geração
Largura de Banda do NVLink	260 TB/s (Largura de Banda do Switch NVLink 6)	7,2 TB/s	3,6 TB/s
Largura de banda do NVLink-C2C	65 TB/s	1,8 TB/s	-
Contagem de Núcleos da CPU	3.168 núcleos NVIDIA Olympus personalizados (compatíveis com Arm®)	88 núcleos NVIDIA Olympus personalizados (compatíveis com Arm®)	-
Memória da CPU	LPDDR5X de 54 TB	LPDDR5X de 1,5 TB	-
Largura de Banda de Rede (Escalabilidade Horizontal)	28,8 TB/s	0,8 TB/s	0,4 TB/s
Total de Chips NVIDIA + HBM4	1.296	30	12

1. Informações preliminares. Todos os valores estão sujeitos a alterações.
2. Especificação detalhada.
3. Desempenho de pico usando algoritmos de emulação baseados em Tensor Core.

Leia a Ficha Técnica do NVIDIA Vera Rubin

Comece agora

Mantenha-se em Dia com as Notícias da NVIDIA

Inscreva-se para receber as últimas notícias, atualizações e novidades da NVIDIA.

Fique por Dentro