NVIDIA HGX™ プラットフォームは、NVIDIA GPU、NVIDIA NVLink™、NVIDIA ネットワーキング、完全に最適化された AI およびハイパフォーマンス コンピューティング (HPC) ソフトウェア スタックの能力を最大限に結集し、あらゆるデータ センターに最高のアプリケーション パフォーマンスを提供し、最速でインサイトを得ることができます。
NVIDIA HGX Rubin NVL8 は、8 基の NVIDIA Rubin GPU と第 6 世代の高速 NVLink 相互接続を統合し、HGX B200 と比較して 4 倍の密度の高い NVFP4 Tensor コア FLOPS を実現し、データセンターをアクセラレーテッド コンピューティングと生成 AI の新時代へと導きます。NVIDIA Rubin ベース HGX システムは、前世代と比較して最大 xxxx 倍の AI ファクトリーの出力を実現するプレミア アクセラレーテッド スケールアップ プラットフォームとして、最も要求の厳しい生成 AI、データ分析、HPC ワークロード向けに設計されています。
AI ファクトリーとスーパーコンピューティング センターは、単一の分散コンピューティング エンジンとして数千基の GPU に広がっています。アクセラレーターを最大限に活用し続けるために、AI と科学的ワークロードには確定的な遅延、ロスレスのスループット、安定したイテレーション時間、データセンター内だけでなく複数のサイトにわたる拡張能力が求められます。
NVIDIA ネットワーキングは、NVIDIA NVLink スケールアップ、NVIDIA Quantum InfiniBand と Spectrum-X™ イーサネット スケールアウト、Spectrum-XGS イーサネット マルチデータセンター スケールアクロス、インフラ サービス向けの NVIDIA® BlueField® DPU と DOCA™、次世代シリコンフォトニクス プラットフォームを組み合わせて、これを可能にするフルスタック ファブリックを提供し、世界で最も要求の厳しい AI データセンターを実現します。
NVIDIA HGX は、8 基の NVIDIA Rubin、NVIDIA Blackwell、または NVIDIA Blackwell Ultra SXM を搭載した 1 つのベースボードで利用できます。ハードウェアとソフトウェアの強力な組み合わせが、前例のない AI スーパーコンピューティング性能の基盤を築きます。
| HGX Rubin NVL8* | |
|---|---|
| フォーム ファクター | 8x NVIDIA Rubin SXM |
| NVFP4 Inference | 400 PFLOPS |
| NVFP4 Training | 280 PFLOPS |
| FP8/FP6 Training | 140 PFLOPS |
| INT8 Tensor コア<sup>1</sup> | 2 PFLOPS |
| FP16/BF16 Tensor コア<sup>1</sup> | 32 PFLOPS |
| TF32 Tensor コア<sup>1</sup> | 16 PFLOPS |
| FP32 | 1040 TFLOPS |
| FP64/FP64 Tensor コア | 264 TFLOPS |
| FP32 SGEMM | FP64 DGEMMCore<sup>2</sup> | 3200 TF | 1600 TF |
| 総メモリ | 2.3 TB |
| NVIDIA NVLink | 第 6 世代 |
| NVIDIA NVLink Switch | NVLink 6 Switch |
| NVLink GPU 間帯域幅 | 3.6 TB/s |
| NVLink 総帯域幅 | 28.8 TB/s |
| ネットワーク帯域幅 | 1.6 TB/s |
*参考仕様、変更の可能性があります
1.Dense (密) における仕様
2.Tensor コアベースのエミュレーションアルゴリズムによる、ピーク性能
| HGX B300 | HGX B200 | |
|---|---|---|
| フォーム ファクター | 8x NVIDIA Blackwell Ultra SXM | 8x NVIDIA Blackwell SXM |
| FP4 Tensor コア<sup>1</sup> | 144 PFLOPS | 108 PFLOPS | 144 PFLOPS | 72 PFLOPS |
| FP8/FP6 Tensor コア<sup>2</sup> | 72 PFLOPS | 72 PFLOPS |
| INT8 Tensor コア<sup>2</sup> | 3 POPS | 72 POPS |
| FP16/BF16 Tensor コア<sup>2</sup> | 36 PFLOPS | 36 PFLOPS |
| TF32 Tensor コア<sup>2</sup> | 18 PFLOPS | 18 PFLOPS |
| FP32 | 600 TFLOPS | 600 TFLOPS |
| FP64/FP64 Tensor コア | 10 TFLOPS | 296 TFLOPS |
| メモリ合計 | 2.1 TB | 1.4 TB |
| NVIDIA NVLink | 第 5 世代 | 第 5 世代 |
| NVIDIA NVLink Switch™ | NVLink 5 Switch | NVLink 5 Switch |
| NVLink GPU-to-GPU 帯域幅 | 1.8 TB/秒 | 1.8 TB/秒 |
| 合計 NVLink 帯域幅 | 14.4 TB/秒 | 14.4 TB/秒 |
| ネットワーキング帯域幅 | 1.6 TB/秒 | 0.8 TB/秒 |
| アテンション パフォーマンス3<sup>3</sup> | 2倍 | 1倍 |
1. 疎行列 | 密行列における性能。
2. 疎行列計算時の性能。 密行列計算時の性能は、疎行列計算の ½ となります。
3. NVIDIA Blackwell との比較
NVIDIA Blackwell アーキテクチャの詳細をご覧ください。