Accélération de l'IA et du calcul haute performance pour tous les Data Centers.
La plateforme NVIDIA HGX™ combine toute la puissance des CPU NVIDIA, des CPU NVIDIA Vera, de NVIDIA NVLink™, des solutions de mise en réseau NVIDIA et de piles logicielles d'IA et de calcul haute performance (HPC) entièrement optimisées afin de fournir les performances d’application les plus élevées et d'accélérer les temps d'accès aux données pour tous les Data Centers.
Le NVIDIA HGX Rubin NVL8 intègre huit GPU NVIDIA Rubin avec des interconnexions NVLink à haute vitesse de sixième génération, offrant ainsi un débit de génération de jetons jusqu'à 10 fois plus élevé que le HGX B200 tout en égalant ses performances d'entraînement avec 4 fois moins de GPU. Les systèmes HGX basés sur NVIDIA Rubin sont conçus pour les charges de travail d'IA agentique, d'analyse des données et de HPC les plus exigeantes. NVIDIA HGX Rubin NVL8 peut être associé soit à des CPU NVIDIA Vera, configurés en tant que HGX Vera Rubin NVL8, soit à des cartes de référence CPU basées sur x86.
L'inférence et le raisonnement à grande échelle des modèles d'IA agentique nécessite un débit d'inférence extrême. Grâce à des innovations architecturales majeures, qui incluent 400 PFLOPS de puissance pour les calculs NVFP4, une bande passante mémoire trois fois plus élevée de 176 To/s ainsi qu'une bande passante NVLink Switch deux fois plus élevée de 28,8 To/s pour les communications inter-GPU à haut débit, HGX Rubin NVL8 fournit un débit de génération de jetons 10 fois plus important que HGX B200. Ce gain de performances significatif permet aux usines d'IA de répondre aux besoins d'un plus grand nombre d'utilisateurs, de maximiser les revenus des jetons et de réduire le coût par jeton.
Projections de performance sujettes à modification. Modèle Kimi K2-Thinking avec FTL<=500 ms, ISL=4K, OSL=4K. HGX Rubin NVL8 avec Sparse NVFP4, HGX B200 avec Dense NVFP4
Projections de performance sujettes à modification. Nombre de GPU basés sur des modèles DeepSeek-R1 pré-entraînés sur 15 000 milliards de jetons avec une longueur de séquence de 4K.
HGX Rubin NVL8 intègre une configuration de pré-entraînement MoE (mixture-of-experts) pour les serveurs disposant d'une configuration adaptée à 8 GPU, ce qui permet d'entraîner des modèles d'IA agentique de nouvelle génération avec 4 fois moins de GPU grâce à des innovations architecturales incluant 4 fois plus de FLOPS d'entraînement NVFP4, 1,6 fois plus de capacité de mémoire HBM à haute vitesse et 2 fois plus de bande passante NVLink par rapport à HGX B200. Ce gain de performances significatif en matière d'efficacité d'entraînement permet aux entreprises d'entraîner plus de modèles avec la même empreinte d'infrastructure, de réduire le coût du développement des modèles et de maximiser le retour sur investissement des infrastructures d'IA.
Spécifiquement conçu pour l'IA agentique, l'apprentissage par renforcement et le traitement des données à grande échelle, NVIDIA Vera est un nouveau CPU dédié à l'ère de l'IA. Les cœurs NVIDIA Olympus, la mémoire LPDDR5X à haute bande passante et la structure de cohérence évolutive NVIDIA fournissent une exécution CPU rapide et efficace, en complément du calcul accéléré, ce qui permet aux usines d’IA de faire fonctionner davantage d’agents, d’évaluations et de pipelines de données.
Les usines d'IA et les centres de calcul intensif font appel à des milliers de GPU en tant qu'un seul moteur de calcul distribué. Pour que les accélérateurs soient pleinement utilisés, les charges de travail scientifiques et d'IA exigent une latence déterministe, un débit sans perte, des temps d'itération stables et la capacité de s'adapter non seulement au sein d'un seul Data Center, mais aussi sur plusieurs sites.
La mise en réseau NVIDIA offre la structure complète qui rend cela possible, en combinant NVIDIA NVLink pour la mise à l'échelle, NVIDIA Quantum InfiniBand et Spectrum-X™ Ethernet pour la mise à l'échelle horizontale, Spectrum-XGS Ethernet pour la mise à l'échelle multi-Data Centers, le DPU NVIDIA® BlueField® et DOCA™ pour des services d'infrastructure et des plateformes de photonique de silicium de nouvelle génération, permettant ainsi de répondre aux besoins des Data Centers d'IA les plus exigeants au monde.
NVIDIA HGX est disponible sur une seule carte de référence avec huit SXM NVIDIA Rubin, NVIDIA Blackwell ou NVIDIA Blackwell Ultra. Les GPU Rubin peuvent être associés à un CPU NVIDIA Vera ou à une carte de référence basée sur x86. Ces puissantes combinaisons de produits matériels et logiciels contribuent à fournir des performances d'IA et de calcul intensif sans précédent.
| Spécifications système | NVIDIA HGX Vera Rubin NVL8<sup>1</sup> | NVIDIA HGX Rubin NVL8<sup>1</sup> |
|---|---|---|
| Configuration | 8x NVIDIA Rubin SXM avec CPU Vera à socket unique | 8x NVIDIA Rubin SXM |
| CPU | Nombre de cœurs | CPU NVIDIA Vera | 88 cœurs NVIDIA Olympus personnalisés (compatibles avec Arm® ) avec multithreading spatial (SMT) | x86 CPU<sup>4</sup> |
| Mémoire CPU | Bande passante | 1,5 To LPDDR5X | 1,2 To/s | x86 CPU<sup>4</sup> |
| Inférence NVFP4 | 400 PFLOPS | |
| Entraînement FP8/FP6<sup>2</sup> | 280 PFLOPS | |
| Entraînement FP8/FP6<sup>2</sup> | 140 PFLOPS | |
| INT8<sup>2</sup> | 2 POPS | |
| FP16/BF16<sup>2</sup> | 32 PFLOPS | |
| TF32<sup>2</sup> | 16 PFLOPS | |
| FP32 | 1,040 TFLOPS | |
| FP64 | 265 TFLOPS | |
| FP32 SGEMM<sup>3</sup> | 3,200 TFLOPS | |
| FP64 DGEMM<sup>3</sup> | 1,600 TFLOPS | |
| Mémoire GPU | Bande passante | 2,3 To HBM4 | 176 To/s | |
| Bande passante du commutateur NVLink | 28,8 To/s | |
| NVIDIA NVLink | Sixième génération | |
| Bande passante de mise en réseau | 1,6 To/s | |
| Spécifications des GPU individuels | NVIDIA Rubin GPU<sup>1</sup> |
|---|---|
| Inférence NVFP4 | 50 PFLOPS |
| Entraînement NVFP4<sup>2</sup> | 35 PFLOPS |
| Entraînement FP8/FP6<sup>2</sup> | 17.5 PFLOPS |
| INT8<sup>2</sup> | 250 TOPS |
| FP16/BF16<sup>2</sup> | 4 PFLOPS |
| TF32<sup>2</sup> | 2 PFLOPS |
| FP32 | 130 TFLOPS |
| FP64 | 33 TFLOPS |
| FP32 SGEMM<sup>3</sup> | 400 TFLOPS |
| FP64 DGEMM<sup>3</sup> | 200 TFLOPS |
| Bande passante NVLink | 3,6 To/s |
| NVIDIA NVLink | Sixième génération |
| Mémoire GPU | Bande passante | 288 Go HBM4 | 22 To/s |
1. Informations préliminaires. Toutes les valeurs sont données à titre indicatif et peuvent être révisées. La spécification d’inférence NVFP4 de type Sparse prend en compte la dispersion structurelle.
2. Spécification dense.
3. Performances maximales avec des algorithmes d'émulation basés sur des cœurs Tensor.
4. Les spécifications des CPU et de la mémoire sont définies par les offres des OEM.
| HGX B300<sup>4</sup> | HGX B200<sup>4</sup> | |
|---|---|---|
| Configuration | 8x NVIDIA Blackwell Ultra SXM | 8x NVIDIA Blackwell SXM |
| FP4 Tensor Core<sup>1</sup> | 144 PFLOPS | 108 PFLOPS | 144 PFLOPS | 72 PFLOPS |
| FP8/FP6 Tensor Core<sup>2</sup> | 72 PFLOPS | 72 PFLOPS |
| INT8 Tensor Core<sup>2</sup> | 3 POPS | 72 POPS |
| FP16/BF16 Tensor Core<sup>2</sup> | 36 PFLOPS | 36 PFLOPS |
| TF32 Tensor Core<sup>2</sup> | 18 PFLOPS | 18 PFLOPS |
| FP32 | 600 TFLOPS | 600 TFLOPS |
| Cœur Tensor FP64/FP64 | 10 TFLOPS | 296 TFLOPS |
| Mémoire totale | 2.1 TB | 1.4 TB |
| NVIDIA NVLink | Cinquième génération | Cinquième génération |
| NVIDIA NVLink Switch™ | Commutateur NVLink 5 | Commutateur NVLink 5 |
| Bande passante GPU vers GPU avec NVSwitch | 1.8 To/s | 1.8 To/s |
| Bande passante NVLink totale | 14.4 To/s | 14.4 To/s |
| Networking Bandwidth | 1.6 TB/s | 0.8 TB/s |
| Attention Performance<sup>3</sup> | 2x | 1x |
1. Spécification Sparse | Dense
2. Spécification Sparse. Dense correspond à la moitié de la spécification Sparse indiquée.
3. Par rapport à NVIDIA Blackwell.
4. HGX B300 et HGX B200 sont en cours d'expédition.
En savoir plus sur la plateforme NVIDIA Vera Rubin.