Supercomputadora de IA NVIDIA HGX

La plataforma de computación de IA líder en el mundo.

Diseñada Específicamente para la IA y la Computación de Alto Rendimiento

La IA, las simulaciones complejas y los conjuntos de datos masivos requieren múltiples GPU con interconexiones extremadamente rápidas y una pila de software totalmente acelerada. La plataforma de supercomputación de IA NVIDIA HGX™ reúne toda la potencia de las GPU de NVIDIA, NVIDIA NVLink™, redes de NVIDIA y pilas de software de IA y computación de alto rendimiento (HPC) totalmente optimizadas para proporcionar el más alto desempeño de aplicaciones e impulsar la obtención más rápida de información.

Plataforma de Computación Acelerada Integral Incomparable

NVIDIA HGX B200 y NVIDIA HGX B100 integran las GPU NVIDIA Blackwell Tensor Core con interconexiones de alta velocidad para impulsar al data center hacia una nueva era de aceleración de la computación y la IA generativa. Los sistemas HGX con tecnología Blackwell, en su calidad de plataforma de escalabilidad acelerada con hasta 15 veces más desempeño de inferencia que la generación anterior, están diseñados para las cargas de trabajo más exigentes de IA generativa, análisis de datos y HPC.

NVIDIA HGX incluye opciones de red avanzadas (a velocidades de hasta 400 gigabits por segundo [Gb/s]) mediante NVIDIA Quantum-2 InfiniBand y Spectrum™-X Ethernet, para el más alto desempeño de IA. HGX también incluye unidades de procesamiento de datos (DPU) NVIDIA® BlueField®-3 para habilitar redes en la nube, almacenamiento componible, seguridad de confianza cero y elasticidad de computación de GPU en nubes de IA a hiperescala.

Inferencia de Deep Learning: Desempeño y Versatilidad

El desempeño proyectado puede cambiar. Latencia de token a token (TTL) = 50 milisegundos (ms) en tiempo real, primera latencia del token (FTL) = 5 s, longitud de secuencia de entrada = 32,768, longitud de secuencia de salida = 1,028, 8 GPU NVIDIA HGX™ H100 de ocho vías refrigeradas por aire en comparación con 1 GPU HGX B200 de ocho vías refrigeradas por aire, según la comparación de desempeño de GPU.

Inferencia en Tiempo Real para la Próxima Generación de Grandes Modelos de Lenguaje

HGX B200 logra un desempeño de inferencia hasta 15 veces más alto que la generación anterior de NVIDIA Hopper™ para modelos masivos como GPT-MoE-1.8T. Transformer Engine de segunda generación utiliza tecnología Blackwell Tensor Core personalizada, combinada con las innovaciones de TensorRT™-LLM y Nemo™ Framework, para acelerar la inferencia en función de grandes modelos de lenguaje (LLM) y modelos de mezcla de expertos (MoE).

Entrenamiento de Deep Learning: Desempeño y Escalabilidad

El desempeño proyectado puede cambiar. escalabilidad de 32,768 GPU, clúster HGX H100 de ocho vías y 4,096 veces refrigerado por aire: red InfiniBand (IB) de 400G, clúster HGX B200 de ocho vías y 4,096 veces refrigerado por aire: red IB de 400G.

Desempeño en Entrenamiento de Nivel Superior

El Transformer Engine de segunda generación, que cuenta con punto flotante de 8 bits (FP8) y nuevas precisiones permite un entrenamiento excepcional 3 veces más rápido para modelos extensos de lenguaje como GPT-MoE-1.8T. Esta innovación se complementa con NVLink de quinta generación con 1,8TB/s de interconexión de GPU a GPU, red InfiniBand y el software NVIDIA Magnum IO™. Juntos, garantizan una escalabilidad eficiente para empresas y extensos clústeres de computación de GPU.

Aceleración de HGX con Redes NVIDIA

El data center es la nueva unidad de computación y las redes juegan un papel fundamental para escalar el desempeño de las aplicaciones a través de él. En combinación con NVIDIA Quantum InfiniBand, HGX ofrece un desempeño y una eficacia de superior, lo que garantiza la utilización plena de los recursos de computación.

Para los data centers de nube de IA que implementan Ethernet, HGX se utiliza mejor con la plataforma de redes NVIDIA Spectrum-X, que impulsa el más alto desempeño de IA a través de Ethernet. Cuenta con switches Spectrum-X y DPU BlueField-3 para una utilización óptima de los recursos y el aislamiento del desempeño, lo que genera resultados consistentes y predecibles para miles de trabajos de IA simultáneos en todas las escalas. Spectrum-X posibilita un nivel avanzado de uso compartido de la nube y seguridad de confianza cero. Como diseño de referencia, NVIDIA ha diseñado Israel-1, una supercomputadora de IA generativa a hiperescala desarrollada con servidores Dell PowerEdge XE9680 que utilizan la plataforma de NVIDIA HGX de 8 GPU, DPU BlueField-3 y switches Spectrum-4.

Conexión de HGX con Redes NVIDIA

  Plataforma NVIDIA Quantum-2 InfiniBand:

Switch Quantum-2, Adaptador ConnectX-7, DPU BlueField-3

Plataforma NVIDIA Spectrum-X:

Switch Spectrum-4,
SuperNIC BlueField-3

Plataforma de Ethernet NVIDIA Spectrum:

Switch Spectrum, Adaptador ConnectX, DPU BlueField

Entrenamiento en aprendizaje profundo El Mejor Mejor Bueno
Simulación Científica El Mejor Mejor Buena
Análisis de datos El Mejor Mejor Bueno
Inferencia de aprendizaje profundo El Mejor Mejor Buena

Especificaciones de NVIDIA HGX

NVIDIA HGX está disponible como placas base individuales con cuatro a ocho GPU H200 o H100 u ocho GPU Blackwell. Estas potentes combinaciones de hardware y software sientan las bases para un desempeño de supercomputación de IA sin precedentes.

  HGX B200
Form Factor 8x NVIDIA Blackwell GPU
FP4 Tensor Core* 144 PFLOPS
FP8/FP6 Tensor Core* 72 PFLOPS
INT8 Tensor Core* 72 POPS
FP16/BF16 Tensor Core* 36 PFLOPS
TF32 Tensor Core* 18 PFLOPS
FP32 600 TFLOPS
FP64 296 TFLOPS
FP64 Tensor Core 296 TFLOPS
Memory Up to 1.4TB
NVLink Fifth generation
NVIDIA NVSwitch™ Fourth generation
NVSwitch GPU-to-GPU Bandwidth 1.8TB/s
Total Aggregate Bandwidth 14.4TB/s
  HGX H200
  4 GPU 8 GPU
Formato 4 SXM NVIDIA H200 8 SXM NVIDIA H200
Núcleo Tensor FP8* 16 PFLOPS 32 PFLOPS
Núcleo Tensor INT8* 16 POPS 32 POPS
Núcleo Tensor FP16/BF16* 8 PFLOPS 16 PFLOPS
Núcleo Tensor TF32* 4 PFLOPS 8 PFLOPS
FP32 270 TFLOPS 540 TFLOPS
FP64 140 TFLOPS 270 TFLOPS
Núcleo Tensor FP64 270 TFLOPS 540 TFLOPS
Memoria HBM3 de 564GB HBM3 de 1,1TB
Ancho de Banda Agregado de GPU 19GB/s 38GB/s
NVLink Cuarta generación Cuarta generación
NVSwitch N/A Tercera generación
Ancho de Banda de GPU a GPU NVSwitch N/A 900GB/s
Ancho de Banda Total Agregado 3,6TB/s 7,2TB/s
  HGX H100
  4 GPU 8 GPU
Formato 4 SXM NVIDIA H100 8 SXM NVIDIA H100
Núcleo Tensor FP8* 16 PFLOPS 32 PFLOPS
Núcleo Tensor INT8* 16 POPS 32 POPS
Núcleo Tensor FP16/BF16* 8 PFLOPS 16 PFLOPS
Núcleo Tensor TF32* 4 PFLOPS 8 PFLOPS
FP32 270 TFLOPS 540 TFLOPS
FP64 140 TFLOPS 270 TFLOPS
Núcleo Tensor FP64 270 TFLOPS 540 TFLOPS
Memoria HBM3 de 320GB HBM3 de 640GB
Ancho de Banda Agregado de GPU 13GB/s 27GB/s
NVLink Cuarta generación Cuarta generación
NVSwitch N/A Tercera generación
Ancho de Banda de GPU a GPU NVSwitch N/A 900GB/s
Ancho de Banda Total Agregado 3,6TB/s 7,2TB/s

Más información sobre la GPU NVIDIA H200 Tensor Core.