NVIDIA HGX プラットフォーム

あらゆるデータセンターで高度な AI とHPC を加速します。

AI とハイパフォーマンス コンピューティング向けに開発

AI、複雑なシミュレーション、膨大なデータセットは、極めて高速な相互接続を備えた複数の GPU と完全に高速化されたソフトウェア スタックを必要とします。 NVIDIA HGX™ プラットフォームは、NVIDIA GPU、NVIDIA NVLink™、NVIDIA ネットワーキング、完全に最適化された AI および高性能コンピューティング(HPC)ソフトウェアスタックの能力を最大限に結集し、あらゆるデータセンターに最高のアプリケーションパフォーマンスを提供し、最速で洞察を得ることができます。

比類なきエンドツーエンドのアクセラレーテッド コンピューティング プラットフォーム

NVIDIA HGX B300 は、NVIDIA Blackwell Ultra GPU と高速相互接続を統合し、データセンターをアクセラレーテッド コンピューティングと生成 AI の新時代に推進します。 前世代よりも最大 11 倍の推論性能を備えたアクセラレーテッド スケールアップ プラットフォームとして、Blackwell ベースの HGX システムは、最も要求の厳しい生成 AI、データ分析、HPC ワークロードに対応しています。

NVIDIA HGX は、最高の AI 性能を実現するため、NVIDIA Quantum-2 InfiniBand とSpectrum™-X Ethernet を使用して、最大 800 ギガビット / 秒 (Gb/s) の高度なネットワークオプションを搭載しています。 HGX はまた、ハイパースケール AI クラウドでクラウドネットワーク、コンポーザブル ストレージ、ゼロトラスト セキュリティ、GPU コンピューティングの弾力性を可能にする NVIDIA® BlueField®-3 データ処理ユニット (DPU) も搭載しています。 

AI 推論:パフォーマンスと汎用性

予想パフォーマンスは変更される場合があります。トークン間レイテンシ(TTL)= 20 ミリ秒リアルタイム、最初のトークンレイテンシ(FTL)= 5 秒、入力シーケンス長 = 32,768、出力シーケンス長 = 1,028、8 x 8 ウェイ HGX H100 GPU 空冷式 vs. 1 x HGX B300 空冷式、GPUあたりのパフォーマンス比較 ; 非集約推論を使用して提供されます。

リアルタイムの大規模言語モデル推論

HGX B300 は、Llama 3.1 405B などのモデルで、前世代の NVIDIA Hopper™ と比較して最大 11 倍の推論性能を実現します。 第 2 世代の Transformer Engineは、カスタム Blackwell Tensor Coreテクノロジと TensorRT™-LLM のイノベーションを組み合わせて、大規模言語モデル(LLM)の推論を高速化します。

NVIDIA ネットワークによる HGX の高速化

データ センターはコンピューティングにおける新しい単位で、ネットワーキングはデータ センター全体にわたってアプリケーションのパフォーマンスをスケーリングする上で不可欠な役割を果たします。NVIDIA Quantum InfiniBand と組み合わせることで、HGX は世界水準のパフォーマンスと効率を実現し、コンピューティング リソースをフルに活用できます。

イーサネットをデプロイする AI クラウド データセンターの場合、HGX は、イーサネット上で最高の AI パフォーマンスを発揮する NVIDIA Spectrum-X™ ネットワーキング プラットフォームと一緒に使用するのが最適です。Spectrum-X スイッチと NVIDIA SuperNIC™ を搭載し、最適なリソース利用とパフォーマンス分離を実現し、あらゆる規模で同時実行する数千もの AI ジョブに対して一貫性のある予測可能な結果を提供します。Spectrum-X は、高度なクラウド マルチテナンシーとゼロトラスト セキュリティを実現します。NVIDIA は、リファレンス デザインとして、NVIDIA HGX 8-GPU プラットフォーム、BlueField-3 SuperNICs、および Spectrum-4 スイッチをベースにした Dell PowerEdge XE9680 サーバーを搭載したハイパースケール生成 AI スーパーコンピューター Israel-1 を設計しました。

NVIDIA HGX 仕様

NVIDIA HGX は、4 基または 8 基の Hopper SXM を搭載した単一ベースボード、あるいは 8 基の NVIDIA Blackwell または NVIDIA Blackwell Ultra SXM を搭載した単一ベースボードで利用可能です。ハードウェアとソフトウェアのこれらの強力な組み合わせが、前例のない AI スーパーコンピューティング性能の基盤を築きます。

  HGX B300 HGX B200
フォーム ファクター 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor コア** 144 FPLOPS | 105 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor コア* 72 FPLOPS 72 PFLOPS
INT8 Tensor コア* 2 POPS 72 POPS
FP16/BF16 Tensor コア* 36 PFLOPS 36 PFLOPS
TF32 Tensor コア* 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor コア 10 TFLOPS 296 TFLOPS
メモリ合計 最大 2.3TB 1.4TB
NVLink 第 5 世代 第 5 世代
NVIDIA NVSwitch™ の特長 NVLink 5 スイッチ NVLink 5 スイッチ
NVSwitch GPU から GPU への帯域幅 1.8TB/s 1.8TB/秒
合計 NVLink 帯域幅 14.4TB/秒 14.4TB/秒
  HGX H200
  4-GPU 8-GPU
フォーム ファクター 4x NVIDIA H200 SXM 8x NVIDIA H200 SXM
FP8 Tensor コア* 16 PFLOPS 32 PFLOPS
INT8 Tensor コア* 16 POPS 32 POPS
FP16/BF16 Tensor コア* 8 PFLOPS 16 PFLOPS
TF32 Tensor コア* 4 PFLOPS 8 PFLOPS
FP32 270 TFLOPS 540 TFLOPS
FP64 140 TFLOPS 270 TFLOPS
FP64 Tensor コア 270 TFLOPS 540 TFLOPS
メモリ合計 564GB HBM3e 1.1TB HBM3e
GPU 合計帯域幅 19GB/s 38GB/s
NVLink 第 4 世代 第 4 世代
NVSwitch なし NVLink 4 スイッチ
NVSwitch GPU から GPU への帯域幅 なし 900GB/秒
合計帯域幅 3.6TB/s 7.2TB/秒
  HGX H100
  4-GPU 8-GPU
フォーム ファクター NVIDIA H100 SXM 4 基 NVIDIA H100 SXM 8 基
FP8 Tensor コア* 16 PFLOPS 32 PFLOPS
INT8 Tensor コア* 16 POPS 32 POPS
FP16/BF16 Tensor コア* 8 PFLOPS 16 PFLOPS
TF32 Tensor コア* 4 PFLOPS 8 PFLOPS
FP32 270 TFLOPS 540 TFLOPS
FP64 140 TFLOPS 270 TFLOPS
FP64 Tensor コア 270 TFLOPS 540 TFLOPS
メモリ合計 320GB HBM3 640GB HBM3
GPU 合計帯域幅 13GB/s 27GB/s
NVLink 第 4 世代 第 4 世代
NVSwitch なし NVLink 4 スイッチ
NVSwitch GPU から GPU への帯域幅 なし 900GB/秒
合計帯域幅 3.6TB/s 7.2TB/秒

NVIDIA Blackwell アーキテクチャの詳細をご覧ください。