NVIDIA HGX AI
スーパーコンピューター

世界をリードする AI コンピューティングプラットフォーム。

はじめに
アクセラレーテッドコンピューティング
推論
トレーニング
ネットワーキング
仕様

はじめに
アクセラレーテッドコンピューティング
推論
トレーニング
ネットワーキング
仕様

AI と HPC に特化した設計

AI、複雑なシミュレーション、大規模なデータセットには、非常に高速な相互接続と完全に高速化されたソフトウェアスタックを備えた複数の GPU が必要になります。NVIDIA HGX™ AI スーパーコンピューティングプラットフォームは、NVIDIA GPU、NVLink®、NVIDIA ネットワーク、完全に最適化された AI およびハイパフォーマンスコンピューティング (HPC) ソフトウェアスタックのフルパワーを結集し、アプリケーションパフォーマンスを最大化し、インサイトが得られるまでの時間を最短化します。

比類なきエンドツーエンドのアクセラレーテッドコンピューティングプラットフォーム

NVIDIA HGX B200 と HGX B100 は NVIDIA Blackwell Tensor コア GPU と高速相互接続を統合し、データセンターを新しい時代に押し上げます。Blackwell ベースの HGX システムは、推論性能が前世代の最大 15 倍となるプレミアアクセラレーテッドスケールアッププラットフォームであり、処理要求が非常に厳しい生成 AI、データ分析、HPC のワークロード向けに設計されています。

NVIDIA HGX H200 は H200 Tensor コア GPU と高速接続を組み合わせ、あらゆるデータセンターに非常に優れたパフォーマンス、スケーラビリティ、セキュリティを届けます。最大 8 基の GPU という構成はかつてない高速化を実現し、32 PFLOPS という圧倒的なパフォーマンスと組み合わされることで、AI および HPC 向けの世界で最もパワフルでスケールアップしたアクセラレーテッドサーバープラットフォームとなります。

HGX H200 と HGX H100 の両方には、高度なネットワーキングオプションが含まれ、そのスピードは最高で 400 ギガビット/秒 (Gb/s) になります。NVIDIA Quantum-2 InfiniBand と Spectrum™-X Ethernet を活用し、最高の AI パフォーマンスを提供します。HGX H200 と HGX H100 には、NVIDIA® BlueField®-3 データプロセシングユニット (DPU) も搭載されており、ハイパースケール AI クラウドでクラウドネットワーキング、コンポーザブルストレージ、ゼロトラストセキュリティ、GPU コンピューティングの順応性を実現します。

ディープラーニング推論: パフォーマンスと汎用性

次世代の大規模言語モデルのためのリアルタイム推論

予想されるパフォーマンスは変更される可能性があります。トークン間のレイテンシ (TTL) = 50 ミリ秒 (ms) リアルタイム、最初のトークンのレイテンシ (FTL) = 5s、入力シーケンス長 = 32,768、出力シーケンス長 = 1,028、8x 8ウェイ NVIDIA HGX™ H100 GPU 空冷と 1x 8ウェイ HGX B200 空冷の比較、GPU ごとのパフォーマンス比較。

HGX B200 は、GPT-MoE-1.8T などの巨大なモデルで、前世代の NVIDIA Hopper™ と比較して最大 15 倍の推論パフォーマンスに達しますこの第 2 世代の Transformer Engine ではカスタムの Blackwell Tensor コアテクノロジと革新的な TensorRT™-LLM および Nemo™ フレームワークを組み合わせ、大規模言語モデル (LLM) と混合エキスパート (MoE) モデルの推論を加速します。

ディープラーニングトレーニング: パフォーマンスとスケーラビリティ

トレーニングパフォーマンスを次のレベルに引き上げる

予想されるパフォーマンスは変更される可能性があります。32,768 GPU スケール、4,096x 8ウェイ HGX H100 空冷クラスター: 400G InfiniBand (IB) ネットワーク、4,096x 8ウェイ HGX B200 空冷クラスター: 400G IB ネットワーク。

この第 2 世代の Transformer Engine は 8 ビットの浮動小数点 (FP8) と新しい精度を備え、GPT-MoE-1.8T などの大規模言語モデルで驚異的な 3 倍の速さでのトレーニングを可能にします。このブレイクスルーを補完するのが第 5 世代の NVLink、1.8TB/秒の GPU 間相互接続、InfiniBand ネットワーキング、NVIDIA Magnum IO™ ソフトウェアです。これらを組み合わせることで、企業や広範囲の GPU コンピューティングクラスターで効率的なスケーラビリティが実現します。

NVIDIA ネットワークによる HGX の高速化

データセンターはコンピューティングにおける新しい単位であり、ネットワーキングはデータセンター全体にわたってアプリケーションのパフォーマンスをスケーリングする上で不可欠な役割を果たします。NVIDIA Quantum InfiniBand と組み合わせることで、HGX は世界最高水準のパフォーマンスと効率性を実現し、コンピューティングリソースを最大限に活用します。

イーサネットを導入する AI クラウドデータセンターでは、HGX を NVIDIA Spectrum-X ネットワーキングプラットフォームと共に使用するのが最適です。このプラットフォームは 400Gb/秒イーサネット上で最高の AI パフォーマンスを発揮します。NVIDIA Spectrum™-4 スイッチと BlueField-3 DPU を備えた Spectrum-X は、最適なリソース使用率とパフォーマンス分離により、規模を問わず、数千の同時 AI ジョブに対して一貫した予測可能な成果を提供します。Spectrum-X は、高度なクラウドマルチテナンシーとゼロトラストセキュリティを可能にします。 NVIDIA Spectrum-X のリファレンスデザインとして、NVIDIA は Israel-1 を設計しました。これは NVIDIA HGX H200 または H100 8 基の GPU プラットフォーム、BlueField-3 DPU、Spectrum-4 スイッチをベースとする Dell PowerEdge XE9680 サーバーで構築されたハイパースケールの生成 AI スーパーコンピューターです。

HGX と NVIDIA ネットワーキングを接続する

	NVIDIA Quantum-2 InfiniBand プラットフォーム: Quantum-2 スイッチ、ConnectX-7 アダプター、BlueField-3 DPU	NVIDIA Spectrum-X プラットフォーム: Spectrum-4 スイッチ、 BlueField-3 DPU、 Spectrum-X ライセンス	NVIDIA Spectrum イーサネットプラットフォーム: Spectrum スイッチ、ConnectX アダプター、BlueField DPU
ディープラーニングトレーニング	Best	Better	Good
科学的シミュレーション	Best	Better	Good
データ分析	Best	Better	Good
ディープラーニング推論	Best	Better	Good

NVIDIA HGX 仕様

NVIDIA HGX は、4 基の H200 または H100 GPU もしくは 8 基の H200、H100、B200、B100 GPU を備えたシングルベースボードで利用できます。ハードウェアとソフトウェアのこのパワフルな組み合わせは、かつてない AI スーパーコンピューティング性能の基礎を築きます。

Blackwell
Hopper

	HGX B200	HGX B100
GPU	HGX B200 8-GPU	HGX B100 8-GPU
フォームファクター	NVIDIA B200 SXM 8 基	NVIDIA B100 SXM 8 基
HPC および AI コンピューティング (FP64/TF32/FP16/FP8/FP4)*	320TF/18PF/36PF/72PF/144PF	240TF/14PF/28PF/56PF/112PF
メモリ	最大 1.5 TB	最大 1.5 TB
NVIDIA NVLink	第 5 世代	第 5 世代
NVIDIA NVSwitch™	第 4 世代	第 4 世代
NVSwitch GPU 間帯域幅	1.8TB/秒	1.8TB/秒
合計帯域幅	14.4TB/秒	14.4TB/秒

	* HGX H200
	4-GPU	8-GPU
GPU	HGX H200 4-GPU	HGX H200 8-GPU
フォームファクター	NVIDIA H200 SXM 4 基	NVIDIA H200 SXM 8 基
HPC および AI コンピューティング (FP64/TF32/FP16/FP8/INT8)*	268TF/4PF/8PF/16PF/16 POPS	535TF/8PF/16PF/32PF/32 POPS
メモリ	最大 564GB	最大 1.1 TB
NVLink	第 4 世代	第 4 世代
NVSwitch	なし	第 3 世代
NVSwitch GPU 間帯域幅	なし	900GB/秒
合計帯域幅	3.6TB/秒	7.2TB/秒

	* HGX H100
	4-GPU	8-GPU
GPU	HGX H100 4-GPU	HGX H100 8-GPU
フォームファクター	NVIDIA H100 SXM 4 基	NVIDIA H100 SXM 8 基
HPC および AI コンピューティング (FP64/TF32/FP16/FP8/INT8)*	268TF/4PF/8PF/16PF/16 POPS	535TF/8PF/16PF/32PF/32 POPS
メモリ	最大 320GB	最大 640GB
NVLink	第 4 世代	第 4 世代
NVSwitch	なし	第 3 世代
NVLink Switch	なし	なし
NVSwitch GPU 間帯域幅	なし	900GB/秒
合計帯域幅	3.6TB/秒	7.2TB/秒

* 疎性あり

NVIDIA HGX H100 データシートを読む

NVIDIA H200 Tensor コア GPU の詳細をご覧ください。

詳細を見る

NVIDIA HGX AI スーパーコンピューター