Plateforme NVIDIA HGX

Accélération de l'IA et du calcul haute performance pour tous les Data Centers.

Aperçu

Accélération de l'IA et du HPC pour tous les Data Centers

La plateforme NVIDIA HGX™ combine toute la puissance des CPU NVIDIA, des CPU NVIDIA Vera, de NVIDIA NVLink™, des solutions de mise en réseau NVIDIA et de piles logicielles d'IA et de calcul haute performance (HPC) entièrement optimisées afin de fournir les performances d’application les plus élevées et d'accélérer les temps d'accès aux données pour tous les Data Centers.

Le NVIDIA HGX Rubin NVL8 intègre huit GPU NVIDIA Rubin avec des interconnexions NVLink à haute vitesse de sixième génération, offrant ainsi un débit de génération de jetons jusqu'à 10 fois plus élevé que le HGX B200 tout en égalant ses performances d'entraînement avec 4 fois moins de GPU. Les systèmes HGX basés sur NVIDIA Rubin sont conçus pour les charges de travail d'IA agentique, d'analyse des données et de HPC les plus exigeantes. NVIDIA HGX Rubin NVL8 peut être associé soit à des CPU NVIDIA Vera, configurés en tant que HGX Vera Rubin NVL8, soit à des cartes de référence CPU basées sur x86.

NVIDIA Vera Rubin entre en pleine production pour alimenter les usines d'IA agentique du monde entier

NVIDIA Vera Rubin entre en pleine production, avec les principaux fabricants de serveurs de Taïwan et les leaders mondiaux de la chaîne logistique qui fabriquent et expédient à grande échelle des systèmes basés sur Vera Rubin, alimentant ainsi les laboratoires d'IA, les fournisseurs de Cloud et les hyperscalers qui se préparent à façonner l'intelligence de demain.

Accélération de la nouvelle génération de l'IA agentique

Boostez le débit de génération de jetons avec HGX Rubin NVL8

L'inférence et le raisonnement à grande échelle des modèles d'IA agentique nécessite un débit d'inférence extrême. Grâce à des innovations architecturales majeures, qui incluent 400 PFLOPS de puissance pour les calculs NVFP4, une bande passante mémoire trois fois plus élevée de 176 To/s ainsi qu'une bande passante NVLink Switch deux fois plus élevée de 28,8 To/s pour les communications inter-GPU à haut débit, HGX Rubin NVL8 fournit un débit de génération de jetons 10 fois plus important que HGX B200. Ce gain de performances significatif permet aux usines d'IA de répondre aux besoins d'un plus grand nombre d'utilisateurs, de maximiser les revenus des jetons et de réduire le coût par jeton.

Projections de performance sujettes à modification. Modèle Kimi K2-Thinking avec FTL<=500 ms, ISL=4K, OSL=4K. HGX Rubin NVL8 avec Sparse NVFP4, HGX B200 avec Dense NVFP4

Projections de performance sujettes à modification. Nombre de GPU basés sur des modèles DeepSeek-R1 pré-entraînés sur 15 000 milliards de jetons avec une longueur de séquence de 4K. 

Entraînez des modèles d'IA de nouvelle génération avec 4 fois moins de GPU

HGX Rubin NVL8 intègre une configuration de pré-entraînement MoE (mixture-of-experts) pour les serveurs disposant d'une configuration adaptée à 8 GPU, ce qui permet d'entraîner des modèles d'IA agentique de nouvelle génération avec 4 fois moins de GPU grâce à des innovations architecturales incluant 4 fois plus de FLOPS d'entraînement NVFP4, 1,6 fois plus de capacité de mémoire HBM à haute vitesse et 2 fois plus de bande passante NVLink par rapport à HGX B200. Ce gain de performances significatif en matière d'efficacité d'entraînement permet aux entreprises d'entraîner plus de modèles avec la même empreinte d'infrastructure, de réduire le coût du développement des modèles et de maximiser le retour sur investissement des infrastructures d'IA.

CPU NVIDIA Vera

CPU NVIDIA Vera

Spécifiquement conçu pour l'IA agentique, l'apprentissage par renforcement et le traitement des données à grande échelle, NVIDIA Vera est un nouveau CPU dédié à l'ère de l'IA. Les cœurs NVIDIA Olympus, la mémoire LPDDR5X à haute bande passante et la structure de cohérence évolutive NVIDIA fournissent une exécution CPU rapide et efficace, en complément du calcul accéléré, ce qui permet aux usines d’IA de faire fonctionner davantage d’agents, d’évaluations et de pipelines de données. 

Solutions de mise en réseau pour l’accélération de NVIDIA HGX

Les usines d'IA et les centres de calcul intensif font appel à des milliers de GPU en tant qu'un seul moteur de calcul distribué. Pour que les accélérateurs soient pleinement utilisés, les charges de travail scientifiques et d'IA exigent une latence déterministe, un débit sans perte, des temps d'itération stables et la capacité de s'adapter non seulement au sein d'un seul Data Center, mais aussi sur plusieurs sites.

La mise en réseau NVIDIA offre la structure complète qui rend cela possible, en combinant NVIDIA NVLink pour la mise à l'échelle, NVIDIA Quantum InfiniBand et Spectrum-X™ Ethernet pour la mise à l'échelle horizontale, Spectrum-XGS Ethernet pour la mise à l'échelle multi-Data Centers, le DPU NVIDIA® BlueField® et DOCA™ pour des services d'infrastructure et des plateformes de photonique de silicium de nouvelle génération, permettant ainsi de répondre aux besoins des Data Centers d'IA les plus exigeants au monde.

NVIDIA HGX - Spécifications

NVIDIA HGX est disponible sur une seule carte de référence avec huit SXM NVIDIA Rubin, NVIDIA Blackwell ou NVIDIA Blackwell Ultra. Les GPU Rubin peuvent être associés à un CPU NVIDIA Vera ou à une carte de référence basée sur x86. Ces puissantes combinaisons de produits matériels et logiciels contribuent à fournir des performances d'IA et de calcul intensif sans précédent.

Spécifications système NVIDIA HGX Vera Rubin NVL8<sup>1</sup> NVIDIA HGX Rubin NVL8<sup>1</sup>
Configuration 8x NVIDIA Rubin SXM avec CPU Vera à socket unique 8x NVIDIA Rubin SXM
CPU | Nombre de cœurs CPU NVIDIA Vera | 88 cœurs NVIDIA Olympus personnalisés (compatibles avec Arm® ) avec multithreading spatial (SMT) x86 CPU<sup>4</sup>
Mémoire CPU | Bande passante 1,5 To LPDDR5X | 1,2 To/s x86 CPU<sup>4</sup>
Inférence NVFP4 400 PFLOPS
Entraînement FP8/FP6<sup>2</sup> 280 PFLOPS
Entraînement FP8/FP6<sup>2</sup> 140 PFLOPS
INT8<sup>2</sup> 2 POPS
FP16/BF16<sup>2</sup> 32 PFLOPS
TF32<sup>2</sup> 16 PFLOPS
FP32 1,040 TFLOPS
FP64 265 TFLOPS
FP32 SGEMM<sup>3</sup> 3,200 TFLOPS
FP64 DGEMM<sup>3</sup> 1,600 TFLOPS
Mémoire GPU | Bande passante 2,3 To HBM4 | 176 To/s
Bande passante du commutateur NVLink 28,8 To/s
NVIDIA NVLink Sixième génération
Bande passante de mise en réseau 1,6 To/s
Spécifications des GPU individuels NVIDIA Rubin GPU<sup>1</sup>
Inférence NVFP4 50 PFLOPS
Entraînement NVFP4<sup>2</sup> 35 PFLOPS
Entraînement FP8/FP6<sup>2</sup> 17.5 PFLOPS
INT8<sup>2</sup> 250 TOPS
FP16/BF16<sup>2</sup> 4 PFLOPS
TF32<sup>2</sup> 2 PFLOPS
FP32 130 TFLOPS
FP64 33 TFLOPS
FP32 SGEMM<sup>3</sup> 400 TFLOPS
FP64 DGEMM<sup>3</sup> 200 TFLOPS
Bande passante NVLink 3,6 To/s
NVIDIA NVLink Sixième génération
Mémoire GPU | Bande passante 288 Go HBM4 | 22 To/s

1. Informations préliminaires. Toutes les valeurs sont données à titre indicatif et peuvent être révisées. La spécification d’inférence NVFP4 de type Sparse prend en compte la dispersion structurelle.
2. Spécification dense.
3. Performances maximales avec des algorithmes d'émulation basés sur des cœurs Tensor.
4. Les spécifications des CPU et de la mémoire sont définies par les offres des OEM.

HGX B300<sup>4</sup> HGX B200<sup>4</sup>
Configuration 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor Core<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor Core<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor Core<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor Core<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
Cœur Tensor FP64/FP64 10 TFLOPS 296 TFLOPS
Mémoire totale 2.1 TB 1.4 TB
NVIDIA NVLink Cinquième génération Cinquième génération
NVIDIA NVLink Switch™ Commutateur NVLink 5 Commutateur NVLink 5
Bande passante GPU vers GPU avec NVSwitch 1.8 To/s 1.8 To/s
Bande passante NVLink totale 14.4 To/s 14.4 To/s
Networking Bandwidth 1.6 TB/s 0.8 TB/s
Attention Performance<sup>3</sup> 2x 1x

1. Spécification Sparse | Dense
2. Spécification Sparse. Dense correspond à la moitié de la spécification Sparse indiquée.
3. Par rapport à NVIDIA Blackwell.
4. HGX B300 et HGX B200 sont en cours d'expédition.

HGX B300 HGX B200
Form Factor 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor Core<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor Core<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor Core<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor Core<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor Core 10 TFLOPS 296 TFLOPS
Total Memory 2.1 TB 1.4 TB
NVIDIA NVLink Fifth generation Fifth generation
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU-to-GPU Bandwidth 1.8 TB/s 1.8 TB/s
Total NVLink Bandwidth 14.4 TB/s 14.4 TB/s
Networking Bandwidth 1.6 TB/s 0.8 TB/s
Attention Performance<sup>3</sup> 2x 1x

En savoir plus sur la plateforme NVIDIA Vera Rubin.