Plateforme NVIDIA HGX

Suralimenter l'IA et le calcul haute performance pour tous les centres de données.

Aperçu

Suralimenter l'IA et le HPC pour tous les centres de données

La plateforme NVIDIA HGX™ regroupe toute la puissance des GPU NVIDIA, de NVIDIA NVLink™, de la mise en réseau NVIDIA et des piles logicielles pour l'IA et pour le calcul haute performance (HPC) entièrement optimisées afin de fournir les performances les plus élevées et d'accélérer l'accès aux informations pour tous les centres de données.

Le NVIDIA HGX Rubin NVL8 intègre huit GPU NVIDIA Rubin avec des interconnexions NVLink à haute vitesse de sixième génération, offrant ainsi 5,5 fois plus de NVFP4 FLOPS que le HGX B200 afin de propulser le Data Center vers une nouvelle ère de calcul accéléré et d'IA générative.

NVIDIA lance la nouvelle génération de l'IA avec Rubin : six nouvelles puces et un supercalculateur d'IA incroyable

La plateforme de nouvelle génération facilite une adoption généralisée en réduisant le coût par jeton grâce à cinq avancées pour le raisonnement et les modèles d'IA agentique.

Fiche technique NVIDIA HGX H100 et HGX H200

Découvrez les capacités et les fonctionnalités des systèmes HGX H100 et H200 de NVIDIA. Cette fiche technique fournit des informations détaillées sur les spécifications et les performances.

Performance et polyvalence de raisonnement de l'IA

L'IA, les simulations complexes et les ensembles de données volumineux nécessitent plusieurs GPU disposant d'interconnexions extrêmement rapides et d'une pile logicielle entièrement accélérée. La plateforme NVIDIA HGX™ réunit toute la puissance des GPU NVIDIA, de NVIDIA NVLink™, de la mise en réseau NVIDIA et des piles logicielles d'IA et du calcul haute performance (HPC) entièrement optimisées pour fournir des performances d'applications optimales et réduire les délais d'obtention d'éclairages dans tous les Data Centers.

Accélération sans précédent du calcul informatique

Le NVIDIA HGX B300 intègre des GPU NVIDIA Blackwell Ultra avec des interconnexions à haute vitesse pour propulser le centre de données dans une nouvelle ère de calcul accéléré et de l'IA générative. En tant que plateforme d'évolutivité accélérée de premier plan avec des performances d'inférence jusqu'à 11 fois plus élevées que la génération précédente, les systèmes HGX basés sur NVIDIA Blackwell sont conçus pour les charges de travail d'IA générative, d'analyse des données et de HPC les plus exigeantes.

NVIDIA HGX inclut des options de mise en réseau avancées, à des vitesses allant jusqu'à 800 gigabits par seconde (Gbit/s), à l'aide de NVIDIA Quantum-X800 InfiniBand et de Spectrum™-X Ethernet pour des performances d'IA optimales. HGX inclut également des unités de traitement de données (DPU) NVIDIA BlueField®-3 pour permettre la mise en réseau Cloud, le stockage composable, la sécurité Zero-Trust et l'élasticité de calcul par GPU dans les Clouds d'IA hyperscale. 

Performance et polyvalence de raisonnement de l'IA

DeepSeek-R1 ISL = 32K, OSL = 8K, HGX B300 avec désagrégation NVIDIA Dynamo FP4. H100 avec regroupement FP8 en vol. Performances projetées sujettes à modification.

Multipliez les revenus de la production d'usine d'IA

La courbe de frontière illustre les paramètres principaux qui déterminent les revenus générés par les jetons de l'usine d'IA. L'axe vertical représente le débit de jetons GPU par seconde (TPS) dans une usine d'IA d'un mégawatt (MW), tandis que l'axe horizontal quantifie l'interactivité et la réactivité de l'utilisateur sous forme de TPS pour un seul utilisateur. À l'intersection optimale du débit et de la réactivité, HGX B300 offre une augmentation globale de 30 fois des performances de sortie de l'usine d'IA par rapport à l'architecture NVIDIA Hopper™ pour un revenu de jetons maximal.

Entraînement évolutif pour de grands modèles d'IA

Performances d’entraînement exceptionnelles

La plateforme HGX B300 offre des performances d'entraînement jusqu'à 2,6 fois plus élevées pour les grands modèles de langage tels que DeepSeek-R1. Grâce à plus de 2 To de mémoire haute vitesse et à une bande passante de commutation NVLink de 14,4 To/s, il permet un d'effectuer un entraînement de modèles à grande échelle et une communication inter-GPU à haut débit.

Projections de performance sujettes à modification. Perf par GPU, FP8, 16K BS, longueur de séquence 16K.

Solutions de mise en réseau pour l’accélération de NVIDIA HGX

Les usines d'IA et les centres de supercalcul s'étendent sur des milliers de GPU en tant qu'un seul moteur de calcul distribué. Pour que les accélérateurs soient pleinement utilisés, les charges de travail scientifiques et d'IA exigent une latence déterministe, un débit sans perte, des temps d'itération stables et la capacité de s'adapter non seulement au sein d'un centre de données, mais aussi sur plusieurs sites.

La mise en réseau NVIDIA offre la structure complète qui rend cela possible, en combinant NVIDIA NVLink pour la mise à l'échelle, NVIDIA Quantum InfiniBand et Spectrum-X™ Ethernet pour la mise à l'échelle horizontale, Spectrum-XGS Ethernet pour la mise à l'échelle multi-centres de données, NVIDIA® BlueField® DPU et DOCA™ pour des services d'infrastructure et des plateformes de photonique de silicium de nouvelle génération, permettant ainsi de répondre aux centres de données d'IA les plus exigeants au monde.

NVIDIA HGX - Spécifications

NVIDIA HGX est disponible sur une seule carte de base avec huit SXMs NVIDIA Rubin, NVIDIA Blackwell ou NVIDIA Blackwell Ultra. Ces puissantes combinaisons de matériel et de logiciels jettent les bases de performances de calcul intensif de l'IA sans précédent.

HGX Rubin NVL8*
Configuration 8x NVIDIA Rubin SXM
Inférence NVFP4 400 PFLOPS
Entraînement NVFP4 280 PFLOPS
Entraînement FP8/FP6 140 PF
INT8 Tensor Core<sup>1</sup> 2 PFLOPS
FP16/BF16 Tensor Core<sup>1</sup> 32 PFLOPS
TF32 Tensor Core<sup>1</sup> 16 PFLOPS
FP32 1040 TFLOPS
Cœur Tensor FP64/FP64 264 TFLOPS
FP32 SGEMM | FP64 DGEMMCore<sup>2</sup> 3200 TF | 1600 TF
Mémoire totale 2.3 TB
NVIDIA NVLink Sixième génération
Commutateur NVIDIA NVLink Commutateur NVLink 6
Bande passante GPU vers GPU avec NVLink 3.6 To/s
Bande passante totale du commutateur NVLink 28.8 To/s
Bande passante de mise en réseau 1.6 To/s

* Spécification préliminaire, sujette à modification
1.  Spécification dans Dense.
2.  Performances maximales avec des algorithmes d'émulation basés sur des cœurs tenseurs.

HGX Rubin NVL8
Form Factor 8x NVIDIA Rubin SXM
FP4 Tensor Core<sup>1</sup> 400 PFLOPS | 144 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 272 PFLOPS
INT8 Tensor Core<sup>2</sup> 4 PFLOPS
FP16/BF16 Tensor Core<sup>2</sup> 64 PFLOPS
TF32 Tensor Core<sup>2</sup> 32 PFLOPS
FP32 1040 TFLOPS
FP64/FP64 Tensor Core 264 TFLOPS
Total Memory 2.3 TB
NVIDIA NVLink Sixth generation
NVIDIA NVLink Switch™ NVLink 6 Switch
NVLink GPU-to-GPU Bandwidth 3.6 TB/s
Total NVLink Bandwidth 28.8 TB/s
Networking Bandwidth 1.6 TB/s
Attention Performance<sup>3</sup> <awaiting results>2x
HGX B300 HGX B200
Configuration 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor Core<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor Core<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor Core<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor Core<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
Cœur Tensor FP64/FP64 10 TFLOPS 296 TFLOPS
Mémoire totale 2.1 TB 1.4 TB
NVIDIA NVLink Cinquième génération Cinquième génération
NVIDIA NVLink Switch™ Commutateur NVLink 5 Commutateur NVLink 5
Bande passante GPU vers GPU avec NVSwitch 1.8 To/s 1.8 To/s
Bande passante NVLink totale 14.4 To/s 14.4 To/s
Networking Bandwidth 1.6 TB/s 0.8 TB/s
Attention Performance<sup>3</sup> 2x 1x

1. Spécification dans Sparse | Dense
2. Spécification dans Sparse. Dense correspond à la demie d'une spécification éparse indiquée.
3. vs. NVIDIA Blackwell.

HGX B300 HGX B200
Form Factor 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor Core<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor Core<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor Core<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor Core<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor Core 10 TFLOPS 296 TFLOPS
Total Memory 2.1 TB 1.4 TB
NVIDIA NVLink Fifth generation Fifth generation
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU-to-GPU Bandwidth 1.8 TB/s 1.8 TB/s
Total NVLink Bandwidth 14.4 TB/s 14.4 TB/s
Networking Bandwidth 1.6 TB/s 0.8 TB/s
Attention Performance<sup>3</sup> 2x 1x

En savoir plus sur la plateforme NVIDIA Rubin.