Plataforma NVIDIA HGX

Turbinando IA e computação de alto desempenho para todos os data centers.

Visão Geral

Turbinando a IA e o HPC para Todos os Data Centers

A plataforma NVIDIA HGX™ reúne todo o poder das GPUs NVIDIA, do NVIDIA NVLink™, da rede NVIDIA e dos stacks de software de IA e computação de alto desempenho (HPC) totalmente otimizados para fornecer o mais alto desempenho de aplicações e impulsionar o tempo mais rápido para insights para todos os data centers.

O NVIDIA HGX Rubin NVL8 integra oito GPUs NVIDIA Rubin com interconexões NVLink de sexta geração, oferecendo 5,5 vezes mais NVFP4 FLOPS do que o HGX B200 para impulsionar o Data Center para uma nova era de computação acelerada e IA generativa.

A NVIDIA Lança a Próxima Geração de IA com Rubin: Seis Novos Chips, Um Incrível Supercomputador de IA

A plataforma de última geração escala a adoção convencional, reduzindo o custo por token com cinco avanços para raciocínio e modelos de IA baseada em agentes.

Desempenho e Versatilidade de Raciocínio de IA

IA, simulações complexas e conjuntos de dados de grande escala exigem várias GPUs com interconexões extremamente rápidas e um stack de software totalmente acelerado. A plataforma NVIDIA HGX™ reúne todo o poder das GPUs NVIDIA, do NVIDIA NVLink™, das redes NVIDIA e dos stacks de software de IA e de computação de alto desempenho (HPC) totalmente otimizados para garantir o máximo desempenho das aplicações e acelerar a obtenção de insights em todos os data centers.

Plataforma de Computação Acelerada de Ponta a Ponta Inigualável

O NVIDIA HGX B300 integra as GPUs NVIDIA Blackwell Ultra com interconexões de alta velocidade para impulsionar o Data Center para uma nova era de computação acelerada e IA generativa. Como a principal plataforma de escalabilidade acelerada com até 11 vezes mais desempenho de inferência do que a geração anterior, os sistemas HGX baseados no NVIDIA Blackwell foram projetados para as cargas de trabalho de IA generativa, análise de dados e HPC mais exigentes.

A NVIDIA HGX inclui opções avançadas de redes, a velocidades de até 800 gigabits por segundo (Gb/s), usando o NVIDIA Quantum-X800 InfiniBand e a Ethernet Spectrum™-X para o mais alto desempenho de IA. A HGX também inclui unidades de processamento de dados (DPUs) NVIDIA BlueField®-3 para permitir redes em nuvem, armazenamento agregável, segurança de confiança zero e elasticidade de computação de GPU em nuvens de IA de hiperescala. 

Desempenho e Versatilidade de Raciocínio de IA

Desempenho projetado sujeito a alterações. Latência token-token (TTL) = 12ms, latência do primeiro token (FTL) = 2s, comprimento da sequência de entrada = 32.768, comprimento da sequência de saída = 8192, HGX B200 de oito vias vs HGX Rubin NVL8 de oito vias, desempenho por GPU, atendido usando inferência desagregada.

Inferência de IA Baseada em Agentes em Tempo Real

O HGX Rubin NVL8 oferece um desempenho de inferência até 3,5 vezes maior em comparação com a geração anterior do NVIDIA Blackwell, impulsionando modelos de raciocínio avançados, como o DeepSeek-R1. Com o Transformer Engine da Rubin acoplado ao NVLink de sexta geração, a Rubin acelera a inferência do NVFP4 para atender às demandas das cargas de trabalho de IA baseada em raciocínio 

Treinamento Escalável para Grandes Modelos de IA

Desempenho de Treinamento de Nível Avançado

A plataforma HGX B300 oferece um desempenho de treinamento até 2,6 vezes maior para grandes modelos de linguagem, como o DeepSeek-R1. Com mais de 2 TB de memória de alta velocidade e 14,4 TB/s de largura de banda do NVLink Switch, ele permite treinamento de modelos em larga escala e comunicação entre GPUs de alta taxa de transferência.

Desempenho projetado sujeito a alterações. Desempenho por GPU, FP8, 16K BS, comprimento de sequência de 16K.

Aceleração da HGX com Redes NVIDIA

Fábricas de IA e centros de supercomputação abrangem milhares de GPUs como um único mecanismo de computação distribuída. Para manter os aceleradores totalmente utilizados, as cargas de trabalho científicas e de IA exigem latência determinista, taxa de transferência sem perdas, tempos de iteração estáveis e a capacidade de escalar não apenas em um data center, mas também em vários locais.

A rede NVIDIA oferece a rede de stack completa que torna isso possível, combinando a escalabilidade do NVIDIA NVLink, o NVIDIA Quantum InfiniBand e o Spectrum-X™ Ethernet, o Spectrum-XGS Ethernet em escala de vários Data Center, a DPU NVIDIA® BlueField® e o DOCA™ para serviços de infraestrutura e plataformas de silício e fotônica de última geração, permitindo os data center de IA mais exigentes do mundo.

Especificações da NVIDIA HGX

O NVIDIA HGX está disponível em uma única placa base com oito SXMs NVIDIA Rubin, NVIDIA Blackwell ou NVIDIA Blackwell Ultra. Essas potentes combinações de hardware e software estabelecem as bases para um desempenho de supercomputação de IA sem precedentes.

HGX Rubin NVL8*
Form Factor 8x NVIDIA Rubin SXM
NVFP4 Inference 400 PFLOPS
NVFP4 Training<sup>1</sup> 280 PFLOPS
FP8/FP6 Training<sup>1</sup> 140 PFLOPS
INT8 Tensor Core<sup>1</sup> 2 PFLOPS
FP16/BF16 Tensor Core<sup>1</sup> 32 PFLOPS
TF32 Tensor Core<sup>1</sup> 16 PFLOPS
FP32 1040 TFLOPS
FP64/FP64 Tensor Core 264 TFLOPS
FP32 SGEMM | FP64 DGEMM<sup>2</sup> 3200 TFLOPS | 1600 TFLOPS
Total Memory 2.3 TB
NVIDIA NVLink Sixth generation
NVIDIA NVLink Switch NVLink 6 Switch
NVLink GPU-to-GPU Bandwidth 3.6 TB/s
Total NVLink Switch Bandwidth 28.8 TB/s
Networking Bandwidth 1.6 TB/s

* Especificação preliminar, sujeita a alteração
1.  Especificação em Dense.
2.  Desempenho de pico usando algoritmos de emulação baseados em núcleos do tensor.

HGX Rubin NVL8
Form Factor 8x NVIDIA Rubin SXM
FP4 Tensor Core<sup>1</sup> 400 PFLOPS | 144 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 272 PFLOPS
INT8 Tensor Core<sup>2</sup> 4 PFLOPS
FP16/BF16 Tensor Core<sup>2</sup> 64 PFLOPS
TF32 Tensor Core<sup>2</sup> 32 PFLOPS
FP32 1040 TFLOPS
FP64/FP64 Tensor Core 264 TFLOPS
Total Memory 2.3 TB
NVIDIA NVLink Sixth generation
NVIDIA NVLink Switch™ NVLink 6 Switch
NVLink GPU-to-GPU Bandwidth 3.6 TB/s
Total NVLink Bandwidth 28.8 TB/s
Networking Bandwidth 1.6 TB/s
Attention Performance<sup>3</sup> <awaiting results>2x
HGX B300<sup>4</sup> HGX B200<sup>4</sup>
Form Factor 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor Core<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor Core<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor Core<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor Core<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor Core 10 TFLOPS 296 TFLOPS
Total Memory 2.1 TB 1.4 TB
NVIDIA NVLink Fifth generation Fifth generation
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU-to-GPU Bandwidth 1.8 TB/s 1.8 TB/s
Total NVLink Bandwidth 14.4 TB/s 14.4 TB/s
Networking Bandwidth 1.6 TB/s 0.8 TB/s
Attention Performance<sup>3</sup> 2x 1x

1. Especificação em Sparse | Dense
2. Especificação em Sparse. Dense é metade da especificação mostrada do Sparse.
3. vs. NVIDIA Blackwell.

HGX B300 HGX B200
Form Factor 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor Core<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor Core<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor Core<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor Core<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor Core 10 TFLOPS 296 TFLOPS
Total Memory 2.1 TB 1.4 TB
NVIDIA NVLink Fifth generation Fifth generation
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU-to-GPU Bandwidth 1.8 TB/s 1.8 TB/s
Total NVLink Bandwidth 14.4 TB/s 14.4 TB/s
Networking Bandwidth 1.6 TB/s 0.8 TB/s
Attention Performance<sup>3</sup> 2x 1x

Saiba Mais sobre a Plataforma NVIDIA Rubin.