La plateforme NVIDIA HGX™ regroupe toute la puissance des GPU NVIDIA, de NVIDIA NVLink™, de la mise en réseau NVIDIA et des piles logicielles pour l'IA et pour le calcul haute performance (HPC) entièrement optimisées afin de fournir les performances les plus élevées et d'accélérer l'accès aux informations pour tous les centres de données.
Le NVIDIA HGX Rubin NVL8 intègre huit GPU NVIDIA Rubin avec des interconnexions NVLink à haute vitesse de sixième génération, offrant ainsi 5,5 fois plus de NVFP4 FLOPS que le HGX B200 afin de propulser le Data Center vers une nouvelle ère de calcul accéléré et d'IA générative.
Les usines d'IA et les centres de supercalcul s'étendent sur des milliers de GPU en tant qu'un seul moteur de calcul distribué. Pour que les accélérateurs soient pleinement utilisés, les charges de travail scientifiques et d'IA exigent une latence déterministe, un débit sans perte, des temps d'itération stables et la capacité de s'adapter non seulement au sein d'un centre de données, mais aussi sur plusieurs sites.
La mise en réseau NVIDIA offre la structure complète qui rend cela possible, en combinant NVIDIA NVLink pour la mise à l'échelle, NVIDIA Quantum InfiniBand et Spectrum-X™ Ethernet pour la mise à l'échelle horizontale, Spectrum-XGS Ethernet pour la mise à l'échelle multi-centres de données, NVIDIA® BlueField® DPU et DOCA™ pour des services d'infrastructure et des plateformes de photonique de silicium de nouvelle génération, permettant ainsi de répondre aux centres de données d'IA les plus exigeants au monde.
NVIDIA HGX est disponible sur une seule carte de base avec huit SXMs NVIDIA Rubin, NVIDIA Blackwell ou NVIDIA Blackwell Ultra. Ces puissantes combinaisons de matériel et de logiciels jettent les bases de performances de calcul intensif de l'IA sans précédent.
| HGX Rubin NVL8* | |
|---|---|
| Configuration | 8x NVIDIA Rubin SXM |
| Inférence NVFP4 | 400 PFLOPS |
| Entraînement NVFP4 | 280 PFLOPS |
| Entraînement FP8/FP6 | 140 PF |
| INT8 Tensor Core<sup>1</sup> | 2 PFLOPS |
| FP16/BF16 Tensor Core<sup>1</sup> | 32 PFLOPS |
| TF32 Tensor Core<sup>1</sup> | 16 PFLOPS |
| FP32 | 1040 TFLOPS |
| Cœur Tensor FP64/FP64 | 264 TFLOPS |
| FP32 SGEMM | FP64 DGEMMCore<sup>2</sup> | 3200 TF | 1600 TF |
| Mémoire totale | 2.3 TB |
| NVIDIA NVLink | Sixième génération |
| Commutateur NVIDIA NVLink | Commutateur NVLink 6 |
| Bande passante GPU vers GPU avec NVLink | 3.6 To/s |
| Bande passante totale du commutateur NVLink | 28.8 To/s |
| Bande passante de mise en réseau | 1.6 To/s |
* Spécification préliminaire, sujette à modification
1. Spécification dans Dense.
2. Performances maximales avec des algorithmes d'émulation basés sur des cœurs tenseurs.
| HGX B300 | HGX B200 | |
|---|---|---|
| Configuration | 8x NVIDIA Blackwell Ultra SXM | 8x NVIDIA Blackwell SXM |
| FP4 Tensor Core<sup>1</sup> | 144 PFLOPS | 108 PFLOPS | 144 PFLOPS | 72 PFLOPS |
| FP8/FP6 Tensor Core<sup>2</sup> | 72 PFLOPS | 72 PFLOPS |
| INT8 Tensor Core<sup>2</sup> | 3 POPS | 72 POPS |
| FP16/BF16 Tensor Core<sup>2</sup> | 36 PFLOPS | 36 PFLOPS |
| TF32 Tensor Core<sup>2</sup> | 18 PFLOPS | 18 PFLOPS |
| FP32 | 600 TFLOPS | 600 TFLOPS |
| Cœur Tensor FP64/FP64 | 10 TFLOPS | 296 TFLOPS |
| Mémoire totale | 2.1 TB | 1.4 TB |
| NVIDIA NVLink | Cinquième génération | Cinquième génération |
| NVIDIA NVLink Switch™ | Commutateur NVLink 5 | Commutateur NVLink 5 |
| Bande passante GPU vers GPU avec NVSwitch | 1.8 To/s | 1.8 To/s |
| Bande passante NVLink totale | 14.4 To/s | 14.4 To/s |
| Networking Bandwidth | 1.6 TB/s | 0.8 TB/s |
| Attention Performance<sup>3</sup> | 2x | 1x |
1. Spécification dans Sparse | Dense
2. Spécification dans Sparse. Dense correspond à la demie d'une spécification éparse indiquée.
3. vs. NVIDIA Blackwell.
En savoir plus sur la plateforme NVIDIA Rubin.