Plataforma NVIDIA HGX

Turbinando IA e computação de alto desempenho para todos os data centers.

Visão geral

Turbinando a IA e o HPC para Todos os Data Centers

A plataforma NVIDIA HGX reúne todo o poder das GPUs NVIDIA, das CPUs NVIDIA Vera, do NVIDIA NVLink, da rede NVIDIA e dos stacks de software de IA e computação de alto desempenho (HPC) totalmente otimizados para fornecer o mais alto desempenho de aplicações e impulsionar o tempo mais rápido para insights para todos os data centers.

O NVIDIA HGX Rubin NVL8 integra oito GPUs NVIDIA Rubin com interconexões NVLink de alta velocidade de sexta geração, oferecendo até dez vezes mais taxa de processamento de fábrica de tokens em comparação com o HGX B200 e combinando seu desempenho de treinamento com quatro vezes menos GPUs. Os sistemas HGX baseados em NVIDIA Rubin são projetados para as cargas de trabalho de IA baseada em agentes, análise de dados e HPC mais exigentes. O NVIDIA HGX Rubin NVL8 pode ser combinado com CPUs NVIDIA Vera — configuradas como HGX Vera Rubin NVL8 — ou com placas-base de CPU baseadas em x86.

NVIDIA Vera Rubin Entra em Plena Produção para Impulsionar Fábricas de IA Baseada em Agentes em Todo o Mundo

O NVIDIA Vera Rubin está entrando em plena produção, com os principais fabricantes de servidores de Taiwan e líderes globais da cadeia de suprimentos produzindo em escala e enviando sistemas baseados no Vera Rubin — impulsionando laboratórios de IA, provedores de nuvem e hiperescaladores na criação da inteligência de amanhã.

Acelerando a Próxima Geração de IA Baseada em Agentes

Aumente a Taxa de Processamento de Fábrica de Tokens com o HGX Rubin NVL8

Atender a modelos de IA baseada em agentes e raciocínio em escala exige uma taxa de processamento de inferência extrema. Com inovações arquitetônicas, incluindo 400 PFLOPS de processamento NVFP4, 3 vezes mais largura de banda de memória com 176 TB/s e o dobro da largura de banda de switch NVLink com 28,8 TB/s para comunicação entre GPUs de alta taxa de processamento, o HGX Rubin NVL8 oferece dez vezes mais taxa de processamento de fábrica de tokens em comparação com o HGX B200. Esse salto no desempenho permite que as fábricas de IA atendam a mais usuários, maximizem a receita de tokens e reduzam o custo por token.

Desempenho projetado sujeito a alterações. Modelo Kimi K2-Thinking com FTL<=500ms, ISL=4K, OSL=4K. HGX Rubin NVL8 com Sparse NVFP4, HGX B200 com Dense NVFP4

Desempenho projetado sujeito a alterações. Número de GPUs baseadas no DeepSeek-R1 pré-treinadas em 15 trilhões de tokens com comprimento de sequência de 4K.

Treine Modelos de IA de Última Geração com 4 Vezes Menos GPUs

O HGX Rubin NVL8 traz pré-treinamento inovador de mixture-of-experts para o formato de servidor de 8 GPUs, treinando modelos de IA baseada em agentes de última geração com 4 vezes menos GPUs, habilitado por inovações arquitetônicas, incluindo 4 vezes mais FLOPS de treinamento no NVFP4, 1,6 vezes mais capacidade de memória HBM de alta velocidade e o dobro de largura de banda do NVLink em comparação com o HGX B200. Esse salto na eficiência de treinamento permite que as organizações treinem mais modelos na mesma área ocupada pela infraestrutura, reduzam o custo do desenvolvimento de modelos e maximizem o retorno sobre o investimento em infraestrutura de IA.

CPU NVIDIA Vera

CPU NVIDIA Vera

O NVIDIA Vera é a CPU para a era da IA — criada especificamente para IA baseada em agentes, aprendizagem por reforço e processamento de dados em escala. Os núcleos NVIDIA Olympus, a memória LPDDR5X de alta largura de banda e a Malha de Coerência Escalável da NVIDIA oferecem execução de CPU rápida e eficiente, juntamente com processamento acelerado, ajudando as fábricas de IA a executar mais agentes, avaliações e pipelines de dados. 

Aceleração da HGX com Redes NVIDIA

Fábricas de IA e centros de supercomputação abrangem milhares de GPUs como um único mecanismo de computação distribuída. Para manter os aceleradores totalmente utilizados, as cargas de trabalho científicas e de IA exigem latência determinista, taxa de transferência sem perdas, tempos de iteração estáveis e a capacidade de escalar não apenas em um data center, mas também em vários locais.

A rede NVIDIA oferece a rede de stack completa que torna isso possível, combinando a escalabilidade do NVIDIA NVLink, o NVIDIA Quantum InfiniBand e o Spectrum-X™ Ethernet, o Spectrum-XGS Ethernet em escala de vários Data Center, a DPU NVIDIA® BlueField® e o DOCA™ para serviços de infraestrutura e plataformas de silício e fotônica de última geração, permitindo os data center de IA mais exigentes do mundo.

Especificações da NVIDIA HGX

O NVIDIA HGX está disponível em uma única placa base com oito SXMs NVIDIA Rubin, NVIDIA Blackwell ou NVIDIA Blackwell Ultra. As GPUs Rubin podem ser combinadas com uma CPU NVIDIA Vera ou placa base baseada em x86. Essas combinações poderosas de hardware e software estabelecem as bases para um desempenho de IA e supercomputação sem precedentes.

System Specifications NVIDIA HGX Vera Rubin NVL8<sup>1</sup> NVIDIA HGX Rubin NVL8<sup>1</sup>
Configuration 8x NVIDIA Rubin SXM with Single Socket Vera CPU 8x NVIDIA Rubin SXM
CPU | Core Count NVIDIA Vera CPU | 88 Custom NVIDIA Olympus Cores (Arm® compatible) with Spatial Multithreading (SMT) x86 CPU<sup>4</sup>
CPU Memory | Bandwidth 1.5TB LPDDR5X | 1.2 TB/s x86 CPU<sup>4</sup>
NVFP4 Inference 400 PFLOPS
NVFP4 Training<sup>2</sup> 280 PFLOPS
FP8/FP6 Training<sup>2</sup> 140 PFLOPS
INT8<sup>2</sup> 2 POPS
FP16/BF16<sup>2</sup> 32 PFLOPS
TF32<sup>2</sup> 16 PFLOPS
FP32 1,040 TFLOPS
FP64 265 TFLOPS
FP32 SGEMM<sup>3</sup> 3,200 TFLOPS
FP64 DGEMM<sup>3</sup> 1,600 TFLOPS
GPU Memory | Bandwidth 2.3 TB HBM4 | 176 TB/s
NVLink Switch Bandwidth 28.8 TB/s
NVIDIA NVLink Sixth Generation
Networking Bandwidth 1.6 TB/s
Individual GPU Specifications NVIDIA Rubin GPU<sup>1</sup>
NVFP4 Inference 50 PFLOPS
NVFP4 Training<sup>2</sup> 35 PFLOPS
FP8/FP6 Training<sup>2</sup> 17.5 PFLOPS
INT8<sup>2</sup> 250 TOPS
FP16/BF16<sup>2</sup> 4 PFLOPS
TF32<sup>2</sup> 2 PFLOPS
FP32 130 TFLOPS
FP64 33 TFLOPS
FP32 SGEMM<sup>2</sup> 400 TFLOPS
FP64 DGEMM<sup>2</sup> 200 TFLOPS
NVLink Bandwidth 3.6 TB/s
NVIDIA NVLink Sixth Generation
GPU Memory | Bandwidth 288 GB HBM4 | 22 TB/s

1. Informações preliminares. Todos os valores são sujeitos a alterações. A especificação de inferência do NVFP4 é esparsa.
2. Especificação densa.
3. Desempenho de pico usando algoritmos de emulação baseados em núcleos tensores.
4. As especificações de CPU e memória são definidas por ofertas do OEM.

HGX B300<sup>4</sup> HGX B200<sup>4</sup>
Form Factor 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor Core<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor Core<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor Core<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor Core<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor Core 10 TFLOPS 296 TFLOPS
Total Memory 2.1 TB 1.4 TB
NVIDIA NVLink Fifth generation Fifth generation
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU-to-GPU Bandwidth 1.8 TB/s 1.8 TB/s
Total NVLink Bandwidth 14.4 TB/s 14.4 TB/s
Networking Bandwidth 1.6 TB/s 0.8 TB/s
Attention Performance<sup>3</sup> 2x 1x

1. Especificação em Sparse | Dense
2. Especificação em Sparse. Dense é metade da especificação mostrada do Sparse.
3. vs. NVIDIA Blackwell.
4. O HGX B300 e o HGX B200 já estão disponíveis.

HGX B300 HGX B200
Form Factor 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor Core<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor Core<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor Core<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor Core<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor Core 10 TFLOPS 296 TFLOPS
Total Memory 2.1 TB 1.4 TB
NVIDIA NVLink Fifth generation Fifth generation
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU-to-GPU Bandwidth 1.8 TB/s 1.8 TB/s
Total NVLink Bandwidth 14.4 TB/s 14.4 TB/s
Networking Bandwidth 1.6 TB/s 0.8 TB/s
Attention Performance<sup>3</sup> 2x 1x

Saiba mais sobre a plataforma NVIDIA Vera Rubin.