NVIDIA HGX
プラットフォーム

あらゆるデータセンター向けに AI とハイパフォーマンス コンピューティングを強化します。

概要

あらゆるデータセンター向けに AI と HPC を強化します。

NVIDIA HGX™ プラットフォームは、NVIDIA GPU、NVIDIA NVLink™、NVIDIA ネットワーキング、完全に最適化された AI およびハイパフォーマンス コンピューティング (HPC) ソフトウェア スタックの能力を最大限に結集し、あらゆるデータ センターに最高のアプリケーション パフォーマンスを提供し、最速でインサイトを得ることができます。

NVIDIA HGX Rubin NVL8 は、8 基の NVIDIA Rubin GPU と第 6 世代の高速 NVLink 相互接続を統合し、HGX B200 と比較して 4 倍の密度の高い NVFP4 Tensor コア FLOPS を実現し、データセンターをアクセラレーテッド コンピューティングと生成 AI の新時代へと導きます。NVIDIA Rubin ベース HGX システムは、前世代と比較して最大 xxxx 倍の AI ファクトリーの出力を実現するプレミア アクセラレーテッド スケールアップ プラットフォームとして、最も要求の厳しい生成 AI、データ分析、HPC ワークロード向けに設計されています。

NVIDIA、Rubin で次世代 AI を始動 — 6 つの新チップと驚異的な AI スーパーコンピューター

次世代プラットフォームは、リーズニングおよびエージェント AI モデルの 5 つのブレイクスルーによりトークンあたりのコストを大幅に削減して、メインストリームの AI 導入を加速します

NVIDIA HGX H100 と HGX H200 データシート

NVIDIA の HGX H100 および H200 システムの機能と特徴をご覧ください。 このデータシートには、仕様とパフォーマンスに関する詳細情報が含まれています。

AI 推論パフォーマンスと汎用性

AI や、複雑なシミュレーション、膨大なデータセットでは、複数の GPU によるきわめて高速なインターコネクトと完全に高速化されたソフトウェア スタックが必要となります。 NVIDIA HGX™ プラットフォームは、NVIDIA GPU、NVIDIA NVLink™、NVIDIA ネットワーキング、完全に最適化された AI および高性能コンピューティング(HPC)ソフトウェア スタックの能力を最大限に結集し、あらゆるデータセンターに最高のアプリケーションパフォーマンスを提供し、最速で洞察を得ることができます。

比類なきエンドツーエンドのアクセラレーテッド コンピューティング プラットフォーム

NVIDIA HGX B300 は、NVIDIA Blackwell Ultra GPU と高速インターコネクトを統合し、データ センターをアクセラレーテッド コンピューティングと生成 AI の新時代へと進める原動力となります。 前世代と比較して最大 11 倍の推論性能を備えたアクセラレーテッド スケールアップ プラットフォームとして、Blackwell ベースの HGX システムは、最も要求の厳しい生成 AI、データ分析、HPC ワークロードに対応しています。

NVIDIA HGX は、最高の AI 性能を実現するため、NVIDIA Quantum-2 InfiniBand とSpectrum™-X Ethernet を使用して、最大 800 ギガビット / 秒 (Gb/s) の高度なネットワーク オプションを搭載しています。 HGX はまた、ハイパースケール AI クラウドでクラウド ネットワーク、コンポーザブル ストレージ、ゼロトラスト セキュリティ、GPU コンピューティングの弾力性の確保を実現する NVIDIA® BlueField®-3 データ処理ユニット (DPU) も搭載しています。 

AI 推論パフォーマンスと汎用性

DeepSeek-R1 ISL = 32K、OSL = 8K、HGX B300 は FP4 NVIDIA Dynamo ディスアグリゲーションを適用H100 は FP8 インフライト バッチ処理を適用。 パフォーマンスは変更される場合があります。

収益 xx AI ファクトリーの出力の向上

このフロンティア曲線は、AI ファクトリーのトークン収益を決定する主要なパラメーターを示しています。 縦軸は、1 メガワット (MW) AI ファクトリーにおける GPU トークン/秒 (TPS) スループットを表し、横軸は、ユーザーの対話性と応答性を、単一のユーザーの TPS として定量化しています。 スループットと応答性のバランスが最適化された結果、HGX B300 は、NVIDIA Hopper™ アーキテクチャと比較して AI ファクトリーの出力パフォーマンスが全体で 30 倍向上し、トークン収益の最大化を実現します。

大規模 AI モデル向けのスケーラブルなトレーニング

一段上のトレーニング パフォーマンス

HGX B300 プラットフォームは、DeepSeek-R1 などの大規模言語モデルに対して、最大 2.6 倍のトレーニング性能を発揮します。 2 TB 以上の高速メモリと 14.4 TB/秒の NVLink Switch 帯域幅により、大規模なモデル トレーニングと高スループットの GPU 間通信を可能にします。

予想パフォーマンスは変更される場合があります。GPU あたりのパフォーマンスを FP8、16K BS、16K シーケンス長にて計測。

NVIDIA ネットワークによる HGX の高速化

AI ファクトリーとスーパーコンピューティング センターは、単一の分散コンピューティング エンジンとして数千基の GPU に広がっています。アクセラレーターを最大限に活用し続けるために、AI と科学的ワークロードには確定的な遅延、ロスレスのスループット、安定したイテレーション時間、データセンター内だけでなく複数のサイトにわたる拡張能力が求められます。

NVIDIA ネットワーキングは、NVIDIA NVLink スケールアップ、NVIDIA Quantum InfiniBand と Spectrum-X™ イーサネット スケールアウト、Spectrum-XGS イーサネット マルチデータセンター スケールアクロス、インフラ サービス向けの NVIDIA® BlueField® DPU と DOCA™、次世代シリコンフォトニクス プラットフォームを組み合わせて、これを可能にするフルスタック ファブリックを提供し、世界で最も要求の厳しい AI データセンターを実現します。

NVIDIA HGX 仕様

NVIDIA HGX は、8 基の NVIDIA Rubin、NVIDIA Blackwell、または NVIDIA Blackwell Ultra SXM を搭載した 1 つのベースボードで利用できます。ハードウェアとソフトウェアの強力な組み合わせが、前例のない AI スーパーコンピューティング性能の基盤を築きます。

HGX Rubin NVL8*
フォーム ファクター 8x NVIDIA Rubin SXM
NVFP4 Inference 400 PFLOPS
NVFP4 Training 280 PFLOPS
FP8/FP6 Training 140 PFLOPS
INT8 Tensor コア<sup>1</sup> 2 PFLOPS
FP16/BF16 Tensor コア<sup>1</sup> 32 PFLOPS
TF32 Tensor コア<sup>1</sup> 16 PFLOPS
FP32 1040 TFLOPS
FP64/FP64 Tensor コア 264 TFLOPS
FP32 SGEMM | FP64 DGEMMCore<sup>2</sup> 3200 TF | 1600 TF
総メモリ 2.3 TB
NVIDIA NVLink 第 6 世代
NVIDIA NVLink Switch NVLink 6 Switch
NVLink GPU 間帯域幅 3.6 TB/s
NVLink 総帯域幅 28.8 TB/s
ネットワーク帯域幅 1.6 TB/s

*参考仕様、変更の可能性があります

1.Dense (密) における仕様
2.Tensor コアベースのエミュレーションアルゴリズムによる、ピーク性能

HGX B300 HGX B200
フォーム ファクター 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor コア<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor コア<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor コア<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor コア<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor コア<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor コア 10 TFLOPS 296 TFLOPS
メモリ合計 2.1 TB 1.4 TB
NVIDIA NVLink 第 5 世代 第 5 世代
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU-to-GPU 帯域幅 1.8 TB/秒 1.8 TB/秒
合計 NVLink 帯域幅 14.4 TB/秒 14.4 TB/秒
ネットワーキング帯域幅 1.6 TB/秒 0.8 TB/秒
アテンション パフォーマンス3<sup>3</sup> 2倍 1倍

1. 疎行列 | 密行列における性能。
2. 疎行列計算時の性能。 密行列計算時の性能は、疎行列計算の ½ となります。
3. NVIDIA Blackwell との比較


HGX Rubin NVL8
フォーム ファクター 8x NVIDIA Rubin SXM
FP4 Tensor コア* 400 PFLOPS | 144 PFLOPS
FP8/FP6 Tensor コア2 272 PFLOPS
INT8 Tensor コア* 4 PFLOPS
FP16/BF16 Tensor コア* 64 PFLOPS
TF32 Tensor コア* 32 PFLOPS
FP32 1040 TFLOPS
FP64/FP64 Tensor コア 264 TFLOPS
メモリ合計 2.3 TB HBM3E
NVIDIA NVLink 第 6 世代
NVIDIA NVLink Switch NVLink 6 スイッチ
NVSwitch GPU 間帯域幅 -3.6 TB/秒
合計 NVLink 帯域幅 28.8 TB/秒
ネットワーキング帯域幅 1.6 TB/秒
アテンション パフォーマンス3 結果待ち 2x
HGX B300 HGX B200
Form Factor 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor Core<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor Core<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor Core<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor Core<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor Core 10 TFLOPS 296 TFLOPS
Total Memory 2.1 TB 1.4 TB
NVIDIA NVLink Fifth generation Fifth generation
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU-to-GPU Bandwidth 1.8 TB/s 1.8 TB/s
Total NVLink Bandwidth 14.4 TB/s 14.4 TB/s
Networking Bandwidth 1.6 TB/s 0.8 TB/s
Attention Performance<sup>3</sup> 2x 1x

1. 疎行列 | 密行列における性能。
2. 疎行列計算時の性能。 密行列計算時の性能は、疎行列計算の ½ となります。
3. NVIDIA Blackwell との比較

NVIDIA Blackwell アーキテクチャの詳細をご覧ください。