あらゆるデータセンターで高度な AI とHPC を加速します。
AI、複雑なシミュレーション、膨大なデータセットは、極めて高速な相互接続を備えた複数の GPU と完全に高速化されたソフトウェア スタックを必要とします。 NVIDIA HGX™ プラットフォームは、NVIDIA GPU、NVIDIA NVLink™、NVIDIA ネットワーキング、完全に最適化された AI および高性能コンピューティング(HPC)ソフトウェアスタックの能力を最大限に結集し、あらゆるデータセンターに最高のアプリケーションパフォーマンスを提供し、最速で洞察を得ることができます。
NVIDIA HGX B300 は、NVIDIA Blackwell Ultra GPU と高速相互接続を統合し、データセンターをアクセラレーテッド コンピューティングと生成 AI の新時代に推進します。 前世代よりも最大 11 倍の推論性能を備えたアクセラレーテッド スケールアップ プラットフォームとして、Blackwell ベースの HGX システムは、最も要求の厳しい生成 AI、データ分析、HPC ワークロードに対応しています。
NVIDIA HGX は、最高の AI 性能を実現するため、NVIDIA Quantum-2 InfiniBand とSpectrum™-X Ethernet を使用して、最大 800 ギガビット / 秒 (Gb/s) の高度なネットワークオプションを搭載しています。 HGX はまた、ハイパースケール AI クラウドでクラウドネットワーク、コンポーザブル ストレージ、ゼロトラスト セキュリティ、GPU コンピューティングの弾力性を可能にする NVIDIA® BlueField®-3 データ処理ユニット (DPU) も搭載しています。
予想パフォーマンスは変更される場合があります。トークン間レイテンシ(TTL)= 20 ミリ秒リアルタイム、最初のトークンレイテンシ(FTL)= 5 秒、入力シーケンス長 = 32,768、出力シーケンス長 = 1,028、8 x 8 ウェイ HGX H100 GPU 空冷式 vs. 1 x HGX B300 空冷式、GPUあたりのパフォーマンス比較 ; 非集約推論を使用して提供されます。
HGX B300 は、Llama 3.1 405B などのモデルで、前世代の NVIDIA Hopper™ と比較して最大 11 倍の推論性能を実現します。 第 2 世代の Transformer Engineは、カスタム Blackwell Tensor Coreテクノロジと TensorRT™-LLM のイノベーションを組み合わせて、大規模言語モデル(LLM)の推論を高速化します。
データ センターはコンピューティングにおける新しい単位で、ネットワーキングはデータ センター全体にわたってアプリケーションのパフォーマンスをスケーリングする上で不可欠な役割を果たします。NVIDIA Quantum InfiniBand と組み合わせることで、HGX は世界水準のパフォーマンスと効率を実現し、コンピューティング リソースをフルに活用できます。
イーサネットをデプロイする AI クラウド データセンターの場合、HGX は、イーサネット上で最高の AI パフォーマンスを発揮する NVIDIA Spectrum-X™ ネットワーキング プラットフォームと一緒に使用するのが最適です。Spectrum-X スイッチと NVIDIA SuperNIC™ を搭載し、最適なリソース利用とパフォーマンス分離を実現し、あらゆる規模で同時実行する数千もの AI ジョブに対して一貫性のある予測可能な結果を提供します。Spectrum-X は、高度なクラウド マルチテナンシーとゼロトラスト セキュリティを実現します。NVIDIA は、リファレンス デザインとして、NVIDIA HGX 8-GPU プラットフォーム、BlueField-3 SuperNICs、および Spectrum-4 スイッチをベースにした Dell PowerEdge XE9680 サーバーを搭載したハイパースケール生成 AI スーパーコンピューター Israel-1 を設計しました。
NVIDIA HGX は、4 基または 8 基の Hopper SXM を搭載した単一ベースボード、あるいは 8 基の NVIDIA Blackwell または NVIDIA Blackwell Ultra SXM を搭載した単一ベースボードで利用可能です。ハードウェアとソフトウェアのこれらの強力な組み合わせが、前例のない AI スーパーコンピューティング性能の基盤を築きます。
HGX B300 | HGX B200 | |
---|---|---|
フォーム ファクター | 8x NVIDIA Blackwell Ultra SXM | 8x NVIDIA Blackwell SXM |
FP4 Tensor コア** | 144 FPLOPS | 105 PFLOPS | 144 PFLOPS | 72 PFLOPS |
FP8/FP6 Tensor コア* | 72 FPLOPS | 72 PFLOPS |
INT8 Tensor コア* | 2 POPS | 72 POPS |
FP16/BF16 Tensor コア* | 36 PFLOPS | 36 PFLOPS |
TF32 Tensor コア* | 18 PFLOPS | 18 PFLOPS |
FP32 | 600 TFLOPS | 600 TFLOPS |
FP64/FP64 Tensor コア | 10 TFLOPS | 296 TFLOPS |
メモリ合計 | 最大 2.3TB | 1.4TB |
NVLink | 第 5 世代 | 第 5 世代 |
NVIDIA NVSwitch™ の特長 | NVLink 5 スイッチ | NVLink 5 スイッチ |
NVSwitch GPU から GPU への帯域幅 | 1.8TB/s | 1.8TB/秒 |
合計 NVLink 帯域幅 | 14.4TB/秒 | 14.4TB/秒 |
* 疎性あり
** スパース性あり |スパース性なし
HGX H200 | ||||
---|---|---|---|---|
4-GPU | 8-GPU | |||
フォーム ファクター | 4x NVIDIA H200 SXM | 8x NVIDIA H200 SXM | ||
FP8 Tensor コア* | 16 PFLOPS | 32 PFLOPS | ||
INT8 Tensor コア* | 16 POPS | 32 POPS | ||
FP16/BF16 Tensor コア* | 8 PFLOPS | 16 PFLOPS | ||
TF32 Tensor コア* | 4 PFLOPS | 8 PFLOPS | ||
FP32 | 270 TFLOPS | 540 TFLOPS | ||
FP64 | 140 TFLOPS | 270 TFLOPS | ||
FP64 Tensor コア | 270 TFLOPS | 540 TFLOPS | ||
メモリ合計 | 564GB HBM3e | 1.1TB HBM3e | ||
GPU 合計帯域幅 | 19GB/s | 38GB/s | ||
NVLink | 第 4 世代 | 第 4 世代 | ||
NVSwitch | なし | NVLink 4 スイッチ | ||
NVSwitch GPU から GPU への帯域幅 | なし | 900GB/秒 | ||
合計帯域幅 | 3.6TB/s | 7.2TB/秒 |
HGX H100 | ||||
---|---|---|---|---|
4-GPU | 8-GPU | |||
フォーム ファクター | NVIDIA H100 SXM 4 基 | NVIDIA H100 SXM 8 基 | ||
FP8 Tensor コア* | 16 PFLOPS | 32 PFLOPS | ||
INT8 Tensor コア* | 16 POPS | 32 POPS | ||
FP16/BF16 Tensor コア* | 8 PFLOPS | 16 PFLOPS | ||
TF32 Tensor コア* | 4 PFLOPS | 8 PFLOPS | ||
FP32 | 270 TFLOPS | 540 TFLOPS | ||
FP64 | 140 TFLOPS | 270 TFLOPS | ||
FP64 Tensor コア | 270 TFLOPS | 540 TFLOPS | ||
メモリ合計 | 320GB HBM3 | 640GB HBM3 | ||
GPU 合計帯域幅 | 13GB/s | 27GB/s | ||
NVLink | 第 4 世代 | 第 4 世代 | ||
NVSwitch | なし | NVLink 4 スイッチ | ||
NVSwitch GPU から GPU への帯域幅 | なし | 900GB/秒 | ||
合計帯域幅 | 3.6TB/s | 7.2TB/秒 |
* 疎性あり
NVIDIA Blackwell アーキテクチャの詳細をご覧ください。