Turbinando IA e computação de alto desempenho para todos os data centers.
A plataforma NVIDIA HGX reúne todo o poder das GPUs NVIDIA, das CPUs NVIDIA Vera, do NVIDIA NVLink, da rede NVIDIA e dos stacks de software de IA e computação de alto desempenho (HPC) totalmente otimizados para fornecer o mais alto desempenho de aplicações e impulsionar o tempo mais rápido para insights para todos os data centers.
O NVIDIA HGX Rubin NVL8 integra oito GPUs NVIDIA Rubin com interconexões NVLink de alta velocidade de sexta geração, oferecendo até dez vezes mais taxa de processamento de fábrica de tokens em comparação com o HGX B200 e combinando seu desempenho de treinamento com quatro vezes menos GPUs. Os sistemas HGX baseados em NVIDIA Rubin são projetados para as cargas de trabalho de IA baseada em agentes, análise de dados e HPC mais exigentes. O NVIDIA HGX Rubin NVL8 pode ser combinado com CPUs NVIDIA Vera — configuradas como HGX Vera Rubin NVL8 — ou com placas-base de CPU baseadas em x86.
Atender a modelos de IA baseada em agentes e raciocínio em escala exige uma taxa de processamento de inferência extrema. Com inovações arquitetônicas, incluindo 400 PFLOPS de processamento NVFP4, 3 vezes mais largura de banda de memória com 176 TB/s e o dobro da largura de banda de switch NVLink com 28,8 TB/s para comunicação entre GPUs de alta taxa de processamento, o HGX Rubin NVL8 oferece dez vezes mais taxa de processamento de fábrica de tokens em comparação com o HGX B200. Esse salto no desempenho permite que as fábricas de IA atendam a mais usuários, maximizem a receita de tokens e reduzam o custo por token.
Desempenho projetado sujeito a alterações. Modelo Kimi K2-Thinking com FTL<=500ms, ISL=4K, OSL=4K. HGX Rubin NVL8 com Sparse NVFP4, HGX B200 com Dense NVFP4
Desempenho projetado sujeito a alterações. Número de GPUs baseadas no DeepSeek-R1 pré-treinadas em 15 trilhões de tokens com comprimento de sequência de 4K.
O HGX Rubin NVL8 traz pré-treinamento inovador de mixture-of-experts para o formato de servidor de 8 GPUs, treinando modelos de IA baseada em agentes de última geração com 4 vezes menos GPUs, habilitado por inovações arquitetônicas, incluindo 4 vezes mais FLOPS de treinamento no NVFP4, 1,6 vezes mais capacidade de memória HBM de alta velocidade e o dobro de largura de banda do NVLink em comparação com o HGX B200. Esse salto na eficiência de treinamento permite que as organizações treinem mais modelos na mesma área ocupada pela infraestrutura, reduzam o custo do desenvolvimento de modelos e maximizem o retorno sobre o investimento em infraestrutura de IA.
O NVIDIA Vera é a CPU para a era da IA — criada especificamente para IA baseada em agentes, aprendizagem por reforço e processamento de dados em escala. Os núcleos NVIDIA Olympus, a memória LPDDR5X de alta largura de banda e a Malha de Coerência Escalável da NVIDIA oferecem execução de CPU rápida e eficiente, juntamente com processamento acelerado, ajudando as fábricas de IA a executar mais agentes, avaliações e pipelines de dados.
Fábricas de IA e centros de supercomputação abrangem milhares de GPUs como um único mecanismo de computação distribuída. Para manter os aceleradores totalmente utilizados, as cargas de trabalho científicas e de IA exigem latência determinista, taxa de transferência sem perdas, tempos de iteração estáveis e a capacidade de escalar não apenas em um data center, mas também em vários locais.
A rede NVIDIA oferece a rede de stack completa que torna isso possível, combinando a escalabilidade do NVIDIA NVLink, o NVIDIA Quantum InfiniBand e o Spectrum-X™ Ethernet, o Spectrum-XGS Ethernet em escala de vários Data Center, a DPU NVIDIA® BlueField® e o DOCA™ para serviços de infraestrutura e plataformas de silício e fotônica de última geração, permitindo os data center de IA mais exigentes do mundo.
O NVIDIA HGX está disponível em uma única placa base com oito SXMs NVIDIA Rubin, NVIDIA Blackwell ou NVIDIA Blackwell Ultra. As GPUs Rubin podem ser combinadas com uma CPU NVIDIA Vera ou placa base baseada em x86. Essas combinações poderosas de hardware e software estabelecem as bases para um desempenho de IA e supercomputação sem precedentes.
| System Specifications | NVIDIA HGX Vera Rubin NVL8<sup>1</sup> | NVIDIA HGX Rubin NVL8<sup>1</sup> |
|---|---|---|
| Configuration | 8x NVIDIA Rubin SXM with Single Socket Vera CPU | 8x NVIDIA Rubin SXM |
| CPU | Core Count | NVIDIA Vera CPU | 88 Custom NVIDIA Olympus Cores (Arm® compatible) with Spatial Multithreading (SMT) | x86 CPU<sup>4</sup> |
| CPU Memory | Bandwidth | 1.5TB LPDDR5X | 1.2 TB/s | x86 CPU<sup>4</sup> |
| NVFP4 Inference | 400 PFLOPS | |
| NVFP4 Training<sup>2</sup> | 280 PFLOPS | |
| FP8/FP6 Training<sup>2</sup> | 140 PFLOPS | |
| INT8<sup>2</sup> | 2 POPS | |
| FP16/BF16<sup>2</sup> | 32 PFLOPS | |
| TF32<sup>2</sup> | 16 PFLOPS | |
| FP32 | 1,040 TFLOPS | |
| FP64 | 265 TFLOPS | |
| FP32 SGEMM<sup>3</sup> | 3,200 TFLOPS | |
| FP64 DGEMM<sup>3</sup> | 1,600 TFLOPS | |
| GPU Memory | Bandwidth | 2.3 TB HBM4 | 176 TB/s | |
| NVLink Switch Bandwidth | 28.8 TB/s | |
| NVIDIA NVLink | Sixth Generation | |
| Networking Bandwidth | 1.6 TB/s | |
| Individual GPU Specifications | NVIDIA Rubin GPU<sup>1</sup> |
|---|---|
| NVFP4 Inference | 50 PFLOPS |
| NVFP4 Training<sup>2</sup> | 35 PFLOPS |
| FP8/FP6 Training<sup>2</sup> | 17.5 PFLOPS |
| INT8<sup>2</sup> | 250 TOPS |
| FP16/BF16<sup>2</sup> | 4 PFLOPS |
| TF32<sup>2</sup> | 2 PFLOPS |
| FP32 | 130 TFLOPS |
| FP64 | 33 TFLOPS |
| FP32 SGEMM<sup>2</sup> | 400 TFLOPS |
| FP64 DGEMM<sup>2</sup> | 200 TFLOPS |
| NVLink Bandwidth | 3.6 TB/s |
| NVIDIA NVLink | Sixth Generation |
| GPU Memory | Bandwidth | 288 GB HBM4 | 22 TB/s |
1. Informações preliminares. Todos os valores são sujeitos a alterações. A especificação de inferência do NVFP4 é esparsa.
2. Especificação densa.
3. Desempenho de pico usando algoritmos de emulação baseados em núcleos tensores.
4. As especificações de CPU e memória são definidas por ofertas do OEM.
| HGX B300<sup>4</sup> | HGX B200<sup>4</sup> | |
|---|---|---|
| Form Factor | 8x NVIDIA Blackwell Ultra SXM | 8x NVIDIA Blackwell SXM |
| FP4 Tensor Core<sup>1</sup> | 144 PFLOPS | 108 PFLOPS | 144 PFLOPS | 72 PFLOPS |
| FP8/FP6 Tensor Core<sup>2</sup> | 72 PFLOPS | 72 PFLOPS |
| INT8 Tensor Core<sup>2</sup> | 3 POPS | 72 POPS |
| FP16/BF16 Tensor Core<sup>2</sup> | 36 PFLOPS | 36 PFLOPS |
| TF32 Tensor Core<sup>2</sup> | 18 PFLOPS | 18 PFLOPS |
| FP32 | 600 TFLOPS | 600 TFLOPS |
| FP64/FP64 Tensor Core | 10 TFLOPS | 296 TFLOPS |
| Total Memory | 2.1 TB | 1.4 TB |
| NVIDIA NVLink | Fifth generation | Fifth generation |
| NVIDIA NVLink Switch™ | NVLink 5 Switch | NVLink 5 Switch |
| NVLink GPU-to-GPU Bandwidth | 1.8 TB/s | 1.8 TB/s |
| Total NVLink Bandwidth | 14.4 TB/s | 14.4 TB/s |
| Networking Bandwidth | 1.6 TB/s | 0.8 TB/s |
| Attention Performance<sup>3</sup> | 2x | 1x |
1. Especificação em Sparse | Dense
2. Especificação em Sparse. Dense é metade da especificação mostrada do Sparse.
3. vs. NVIDIA Blackwell.
4. O HGX B300 e o HGX B200 já estão disponíveis.
Saiba mais sobre a plataforma NVIDIA Vera Rubin.