Plataforma NVIDIA HGX

IA potenciada y computación de alto rendimiento para todos los data centers.

Descripción General

Potenciar la IA y el HPC para Cada Data Center

La plataforma NVIDIA HGX™ reúne todo el poder de las GPU de NVIDIA, NVIDIA NVLink™, las redes de NVIDIA y las pilas de software de IA y computación de alto rendimiento (HPC) completamente optimizadas para proporcionar el más alto desempeño de aplicaciones y acelerar el tiempo de obtención de información para todos los data centers.

NVIDIA HGX Rubin NVL8 integra ocho GPU NVIDIA Rubin con interconexiones NVLink de alta velocidad de sexta generación, lo que ofrece 5,5 veces más NVFP4 FLOPS que HGX B200 para impulsar al data center a una nueva era de computación acelerada e IA generativa.

NVIDIA Pone en Marcha la Próxima Generación de IA con Rubin: Seis Chips Nuevos y Una Supercomputadora de IA Increíble

La plataforma de próxima generación escala la adopción generalizada, lo que reduce el costo por token con cinco avances para los modelos de razonamiento y de IA basada en agentes.

Razonamiento de IA: Desempeño y Versatilidad

La IA, las simulaciones complejas y los conjuntos de datos masivos requieren múltiples GPU con interconexiones extremadamente rápidas y una pila de software totalmente acelerada. La plataforma NVIDIA HGX™ reúne todo la potencia de las GPU de NVIDIA, NVIDIA NVLink™, las redes de NVIDIA y las pilas de software de IA y computación de alto rendimiento (HPC) totalmente optimizadas para proporcionar el más alto rendimiento de las aplicaciones e impulsar el tiempo más rápido de obtención de la información para todos los data centers.

Plataforma de Computación Acelerada Integral Incomparable

NVIDIA HGX B300 integra las GPU NVIDIA Blackwell Ultra con interconexiones de alta velocidad para impulsar el data center hacia una nueva era de computación acelerada e IA Generativa. Los sistemas HGX con tecnología NVIDIA Blackwell, en su calidad de plataforma de escalabilidad acelerada con hasta 11 veces más rendimiento de inferencia que la generación anterior, están diseñados para las cargas de trabajo más exigentes de IA generativa, análisis de datos y HPC.

NVIDIA HGX incluye opciones de red avanzadas a velocidades de hasta 800 gigabits por segundo [Gb/s] mediante NVIDIA Quantum-X800 InfiniBand y Spectrum™-X Ethernet, para el más alto rendimiento de IA. HGX también incluye unidades de procesamiento de datos (DPU) NVIDIA® BlueField®-3 para habilitar redes en la nube, almacenamiento componible, seguridad de confianza cero y elasticidad de computación de GPU en nubes de IA a hiperescala. 

Razonamiento de IA: Desempeño y Versatilidad

El desempeño proyectado puede cambiar. Latencia de token a token (TTL) = 12 ms, latencia de primer token (FTL) = 2 s, longitud de secuencia de entrada =32,768, longitud de secuencia de salida = 8192, HGX B200 de ocho vías frente a HGX Rubin NVL8 de ocho vías, por desempeño de GPU, ofrecida mediante inferencia desagregada.

Inferencia en Tiempo Real de IA Basada en Agentes

HGX Rubin NVL8 ofrece un desempeño de inferencia hasta 3,5 veces mayor en comparación con la generación anterior de NVIDIA Blackwell, lo que impulsa modelos de razonamiento avanzados como DeepSeek-R1. Con el Motor de Transformadores y NVLink de sexta generación, Rubin acelera la inferencia NVFP4 para satisfacer las demandas de las cargas de trabajo basadas en razonamiento de IA basada en agente 

Entrenamiento Escalable para Grandes Modelos de IA

Desempeño en entrenamiento de nivel superior

La plataforma HGX B300 ofrece un desempeño de entrenamiento hasta 2,6 veces mayor para grandes modelos de lenguaje, como DeepSeek-R1. Con más de 2 TB de memoria de alta velocidad y 14,4 TB/s de ancho de banda de switch NVLink, permite el entrenamiento de modelos a escala masiva y una comunicación entre GPU de alto rendimiento.

El desempeño proyectado puede cambiar. Perf por GPU, FP8, 16,000 BS, 16,000 de longitud de secuencia

Aceleración de HGX con Redes NVIDIA

Las fábricas de IA y los centros de supercomputación abarcan miles de GPU como un solo motor de computación distribuida Para mantener los aceleradores completamente utilizados, las cargas de trabajo de IA y científicas exigen una latencia determinista, un rendimiento sin pérdidas, tiempos de iteración estables y la capacidad de escalar no solo dentro de un data center, sino también en varios sitios.

Las redes de NVIDIA ofrecen la estructura de pila completa que lo hace posible, ya que combina la escalabilidad de NVLink de NVIDIA, la escalabilidad de NVIDIA Quantum InfiniBand y Spectrum-X™ Ethernet, la escalabilidad de múltiples centros de datos Spectrum-XGS Ethernet, la DPU NVIDIA® BlueField® y DOCA™ para servicios de infraestructura, y plataformas de fotónica de silicio de última generación, lo que permite los data centers de IA más exigentes del mundo.

Especificaciones de NVIDIA HGX

NVIDIA HGX está disponible en una sola placa base con ocho NVIDIA Rubin, NVIDIA Blackwell o NVIDIA Blackwell Ultra SXMs. Estas potentes combinaciones de hardware y software sientan las bases para un desempeño de supercomputación de IA sin precedentes.

HGX Rubin NVL8*
Form Factor 8x NVIDIA Rubin SXM
NVFP4 Inference 400 PFLOPS
NVFP4 Training<sup>1</sup> 280 PFLOPS
FP8/FP6 Training<sup>1</sup> 140 PFLOPS
INT8 Tensor Core<sup>1</sup> 2 PFLOPS
FP16/BF16 Tensor Core<sup>1</sup> 32 PFLOPS
TF32 Tensor Core<sup>1</sup> 16 PFLOPS
FP32 1040 TFLOPS
FP64/FP64 Tensor Core 264 TFLOPS
FP32 SGEMM | FP64 DGEMM<sup>2</sup> 3200 TFLOPS | 1600 TFLOPS
Total Memory 2.3 TB
NVIDIA NVLink Sixth generation
NVIDIA NVLink Switch NVLink 6 Switch
NVLink GPU-to-GPU Bandwidth 3.6 TB/s
Total NVLink Switch Bandwidth 28.8 TB/s
Networking Bandwidth 1.6 TB/s

* Especificación preliminar, sujeta a cambios
1.  Especificación en Densa.
2. Desempeño máximo mediante algoritmos de emulación basados en núcleos tensores.

HGX Rubin NVL8
Form Factor 8x NVIDIA Rubin SXM
FP4 Tensor Core<sup>1</sup> 400 PFLOPS | 144 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 272 PFLOPS
INT8 Tensor Core<sup>2</sup> 4 PFLOPS
FP16/BF16 Tensor Core<sup>2</sup> 64 PFLOPS
TF32 Tensor Core<sup>2</sup> 32 PFLOPS
FP32 1040 TFLOPS
FP64/FP64 Tensor Core 264 TFLOPS
Total Memory 2.3 TB
NVIDIA NVLink Sixth generation
NVIDIA NVLink Switch™ NVLink 6 Switch
NVLink GPU-to-GPU Bandwidth 3.6 TB/s
Total NVLink Bandwidth 28.8 TB/s
Networking Bandwidth 1.6 TB/s
Attention Performance<sup>3</sup> <awaiting results>2x
HGX B300<sup>4</sup> HGX B200<sup>4</sup>
Form Factor 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor Core<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor Core<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor Core<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor Core<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor Core 10 TFLOPS 296 TFLOPS
Total Memory 2.1 TB 1.4 TB
NVIDIA NVLink Fifth generation Fifth generation
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU-to-GPU Bandwidth 1.8 TB/s 1.8 TB/s
Total NVLink Bandwidth 14.4 TB/s 14.4 TB/s
Networking Bandwidth 1.6 TB/s 0.8 TB/s
Attention Performance<sup>3</sup> 2x 1x

1. Especificación en Dispersa | Densa
2. Especificación en Dispersa. Densa es la ½ de la especificación dispersa que se muestra.
3. frente a NVIDIA Blackwell.

HGX B300 HGX B200
Form Factor 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor Core<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor Core<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor Core<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor Core<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor Core 10 TFLOPS 296 TFLOPS
Total Memory 2.1 TB 1.4 TB
NVIDIA NVLink Fifth generation Fifth generation
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU-to-GPU Bandwidth 1.8 TB/s 1.8 TB/s
Total NVLink Bandwidth 14.4 TB/s 14.4 TB/s
Networking Bandwidth 1.6 TB/s 0.8 TB/s
Attention Performance<sup>3</sup> 2x 1x

Más Información sobre la Plataforma NVIDIA Rubin.