NVIDIA HGX AI スーパーコンピューター

世界をリードする AI コンピューティング プラットフォーム。

AI と HPC に特化した設計

AI、複雑なシミュレーション、膨大なデータセットには、極めて高速な相互接続と完全に高速化されたソフトウェア スタックを備えた複数の GPU が必要です。 NVIDIA HGX™ AI スーパーコンピューティング プラットフォームは、NVIDIA GPU、NVLink®、NVIDIA ネットワーキング、完全に最適化された AI およびハイ パフォーマンス コンピューティング (HPC) ソフトウェア スタックの能力を結集することで、最高のアプリケーション性能を実現し、最速で洞察や知見を提供します。

比類なきエンドツーエンドのアクセラレーテッド コンピューティング プラットフォーム

NVIDIA HGX H200 は、H200 Tensor コア GPU と高速相互接続を組み合わせることで、世界で最もパワフルなサーバーを構成します。最大 8 基の GPU 構成により、最大 1.1 テラバイト (TB) の GPU メモリと 38 テラバイト/秒の総メモリ帯域幅で、かつてない高速化を実現します。これが 32 ペタフロップスという圧倒的なパフォーマンスと組み合わされることで、AI および HPC 向けの世界で最もパワフルでスケールアップしたアクセラレーテッド サーバー プラットフォームとなります。

HGX H200 と HGX H100 には、高度なネットワーキング オプションが含まれ、そのスピードは最高で 400 ギガバイト/秒 (Gb/s) になります。NVIDIA Quantum-2 InfiniBand と Spectrum™-X Ethernet を活用し、最高の AI パフォーマンスを提供します。HGX H200 と HGX H100 は、NVIDIA® BlueField®-3 データ プロセシング ユニット (DPU) も搭載されており、ハイパースケール AI クラウドでクラウド ネットワーキング、コンポーザブル ストレージ、ゼロトラスト セキュリティ、GPU コンピューティングの順応性を実現します。

HGX Stack

ディープラーニング トレーニング: パフォーマンスとスケーラビリティ

予測されるパフォーマンスは変更される可能性があります。

GPT-3 175B training NVIDIA A100 Tensor Core GPU cluster: NVIDIA Quantum InfiniBand network, H100 cluster: NVIDIA Quantum-2 InfiniBand network

NVIDIA H200 GPU と H100 GPU は、精度 FP8 の Transformer Engine を備え、大規模言語モデルのトレーニングを前世代 GPU の 4 倍以上のスピードで処理します。GPU 間を 900GB/秒で相互接続する第 4 世代 NVLink、PCIe Gen5、NVIDIA Magnum IO™ ソフトウェアの組み合わせによって、小規模な企業から大規模な統合 GPU クラスターまで、効率的なスケーラビリティを提供します。これらのインフラストラクチャの進歩は、NVIDIA AI Enterprise ソフトウェア スイートと連動することで、HGX H200 と HGX H100 を最もパワフルなエンドツーエンドの AI および HPC データ センター プラットフォームにしています。

ディープラーニング推論: パフォーマンスと汎用性

最大規模のモデルで AI 推論性能を最大 30 倍に

5,300 億のパラメーターを持つ Megatron チャットボット推論

Inference on Megatron 530B parameter model chatbot for input sequence length = 128, output sequence length = 20, A100 cluster: NVIDIA Quantum InfiniBand network; H100 cluster: NVIDIA Quantum-2 InfiniBand network for 2x HGX H100 configurations; 4x HGX A100 vs. 2x HGX H100 for 1 and 1.5 sec; 2x HGX A100 vs. 1x HGX H100 for 2 sec.

AI は、幅広いビジネスの課題を、同じく幅広いニューラル ネットワークを使用して解決します。優れた AI 推論アクセラレータには、最高のパフォーマンスを提供するだけでなく、データ センターからエッジまで、顧客が導入先として選択するあらゆる場所で、これらのネットワークを高速化するのに必要な汎用性も求められます。

HGX H200 と HGX H100 は、5,300 億個のパラメーターを持つ Megatron チャットボットにおける推論を前世代と比較して、最大 30 倍高速化し、推論で市場をリードする NVIDIA のリーダーシップをさらに拡大します。

HPC のパフォーマンス

HPC アプリケーションのパフォーマンスが最大 110 倍に

予測されるパフォーマンスは変更される可能性があります。
HPC MILC- dataset NERSC Apex Medium | HGX H200 4-GPU | dual Sapphire Rapids 8480
HPC Apps- CP2K: dataset H2O-32-RI-dRPA-96points | GROMACS: dataset STMV | ICON: dataset r2b5 | MILC: dataset NERSC Apex Medium | Chroma: dataset HMC Medium | Quantum Espresso: dataset AUSURF112 | 1x H100 | 1x H200.

メモリ帯域幅は、より高速なデータ転送を可能にし、複雑な処理のボトルネックを軽減するため、ハイパフォーマンス コンピューティング アプリケーションにとって非常に重要です。シミュレーション、科学研究、人工知能などのメモリを大量に使用する HPC アプリケーションの場合、H200 のより高いメモリ帯域幅により、データへのアクセスと効率的な操作が保証され、CPU と比較して結果が得られるまでの時間が最大 110 倍速くなります。

NVIDIA ネットワークによる HGX の高速化

データ センターはコンピューティングにおける新しい単位であり、ネットワーキングはデータ センター全体にわたってアプリケーションのパフォーマンスをスケーリングする上で不可欠な役割を果たします。NVIDIA Quantum InfiniBand と組み合わせることで、HGX は世界最高水準のパフォーマンスと効率性を実現し、コンピューティング リソースを最大限に活用します。

イーサネットを導入する AI クラウド データ センターでは、HGX を NVIDIA Spectrum-X ネットワーキング プラットフォームと共に使用するのが最適です。このプラットフォームは 400Gb/秒 イーサネット上で最高の AI パフォーマンスを発揮します。NVIDIA Spectrum™-4 スイッチと BlueField-3 DPU を備えた Spectrum-X は、最適なリソース使用率とパフォーマンス分離により、規模を問わず、数千の同時 AI ジョブに対して一貫した予測可能な成果を提供します。Spectrum-X は、高度なクラウド マルチテナンシーとゼロトラスト セキュリティを可能にします。 NVIDIA Spectrum-X のリファレンス デザインとして、NVIDIA は Israel-1 を設計しました。これは NVIDIA HGX™ H100 8 基の GPU プラットフォーム、BlueField-3 DPU、Spectrum-4 スイッチをベースとする Dell PowerEdge XE9680 サーバーで構築されたハイパースケールの生成 AI スーパーコンピューターです。

HGX H200 または H100 と NVIDIA ネットワーキングを接続する

  NVIDIA Quantum-2 InfiniBand プラットフォーム:

Quantum-2 スイッチ、ConnectX-7 アダプター、BlueField-3 DPU

NVIDIA Spectrum-X プラットフォーム:

Spectrum-4 スイッチ、 BlueField-3 DPU、 Spectrum-X ライセンス

NVIDIA Spectrum イーサネット プラットフォーム:

Spectrum スイッチ、ConnectX アダプター、BlueField DPU

DL トレーニング 最良
科学シミュレーション 最良
データ分析 最良
DL 推論 最良

NVIDIA HGX 仕様

NVIDIA HGX は、H200 または H100 GPU が 4 基または 8 基、もしくは A100 GPU が 4 基または 8 基のシングル ベースボードで利用可能です。ハードウェアとソフトウェアのこのパワフルな組み合わせは、かつてない AI スーパーコンピューティング性能の基礎を築きます。

  HGX H200
  4-GPU 8-GPU
GPU HGX H200 4-GPU HGX H200 8-GPU
フォーム ファクター NVIDIA H200 SXM 4 基 NVIDIA H200 SXM 8 基
HPC および AI コンピューティング (FP64/TF32/FP16/FP8/INT8) 268TF/4PF/8PF/16PF/16 POPS 535TF/8PF/16PF/32PF/32 POPS
メモリ 最大 564GB 最大 1.1TB
NVLink 第 4 世代 第 4 世代
NVSwitch なし 第 3 世代
NVSwitch GPU 間帯域幅 なし 900GB/秒
合計帯域幅 3.6Tb/秒 7.2TB/秒
  HGX H100
  4-GPU 8-GPU
GPU HGX H100 4-GPU HGX H100 8-GPU
フォーム ファクター NVIDIA H100 SXM 4 基 NVIDIA H100 SXM 8 基
HPC および AI 計算 (FP64/TF32/FP16/FP8/INT8) 268TF/4PF/8PF/16PF/16 POPS 535TF/8PF/16PF/32PF/32 POPS
メモリ 最大 320 GB 最大 640 GB
NVLink 第 4 世代 第 4 世代
NVSwitch なし 第 3 世代
NVLink Switch なし なし
GPU 間の帯域幅を備えた NVS なし 900 GB/秒
合計帯域幅 3.6 TB/秒 7.2 TB/秒
  HGX A100
  4-GPU 8-GPU
GPU HGX A100 4-GPU HGX A100 8-GPU
フォーム ファクター NVIDIA A100 SXM 4 基 NVIDIA A100 SXM 8 基
HPC および AI 計算 (FP64/TF32/FP16/INT8) 78TF/1.25PF/2.5PF/5 POPS 156TF/2.5PF/5PF/10 POPS
メモリ 最大 320 GB 最大 640 GB
NVLink 第 3 世代 第 3 世代
NVSwitch なし 第 2 世代
GPU 間の帯域幅を備えた NVS なし 600 GB/秒
合計帯域幅 2.4 TB/秒 4.8 TB/秒

NVIDIA H200 Tensor コア GPU の詳細を見る