あらゆるデータ センター向けに AI とハイパフォーマンス コンピューティングを強化します。
NVIDIA HGX™ プラットフォームは、NVIDIA GPU、NVIDIA Vera CPU、NVIDIA NVLink™、NVIDIA ネットワーク、完全に最適化された AI およびハイパフォーマンス コンピューティング (HPC) ソフトウェア スタックの能力を最大限に結集して、あらゆるデータセンターに最高のアプリケーションパフォーマンスを提供することで、最速でインサイトを得ることができます。
NVIDIA HGX Rubin NVL8 は、8 基の NVIDIA Rubin GPU と第 6 世代の高速 NVLink 相互接続を統合することで、HGX B200 と比較して最大 10 倍のトークン ファクトリー スループットを実現し、4分の1の GPU で同等のトレーニング パフォーマンスを実現します。NVIDIA Rubin ベース HGX システムは、最も要求の厳しいエージェント型 AI、データ分析、HPC ワークロード向けに設計されています。 NVIDIA HGX Rubin NVL8 は、HGX Vera Rubin NVL8 として構成された NVIDIA Vera CPU、または x86 ベースの CPU ベースボードと組み合わせることができます。
大規模なエージェント型 AI と推論モデルを提供するには、極めて高い推論スループットが必要です。400 PFLOPS の NVFP4 演算能力、3 倍に匹敵する 176 TB/s のメモリ帯域幅、GPU 間の高速通信を可能にし、2 倍に匹敵する 28.8 TB/s の NVLink Switch 帯域幅などのアーキテクチャ上の革新により、HGX Rubin NVL8 は HGX B200 と比較して 10 倍のトークン ファクトリー スループットを実現します。このパフォーマンスの飛躍的な向上により、AI ファクトリーはより多くのユーザーにサービスを提供でき、トークン収益を最大化することで、トークンあたりのコストを削減できるようになります。
パフォーマンスの予測値は変更される場合があります。FTL <=500ms、ISL=4K、OSL=4K の Kimi K2-Thinking モデル。 Sparse NVFP4 搭載 HGX Rubin NVL8、Dense NVFP4 搭載 HGX B200
パフォーマンスの予測値は変更される場合があります。4K シーケンス長の 15T トークンで事前トレーニングされた DeepSeek-R1 を基盤とする GPU の数。
HGX Rubin NVL8 は、8 基の GPU サーバー フォーム ファクターに画期的な混合エキスパート型の事前学習を実現し、HGX B200 と比較して 4 倍の NVFP4 トレーニング FLOPS、1.6 倍の高速 HBM メモリ容量、2 倍の NVLink 帯域幅などのアーキテクチャの革新により、4 分の 1 の数の GPU で次世代エージェント型 AI モデルをトレーニングできます。このトレーニング効率の飛躍的な向上により、組織は同じインフラストラクチャ フットプリント内でより多くのモデルをトレーニングできるようになり、モデル開発のコストを削減し、AI インフラ投資に対する収益率を最大化できます。
NVIDIA Vera は、AI 時代向けの CPU であり、エージェント型 AI、強化学習、大規模なデータ処理向けに設計されています。 NVIDIA Olympus コア、高帯域幅 LPDDR5X メモリ、NVIDIA Scalable Coherency Fabric は、アクセラレーテッド コンピューティングに加えて、高速で効率的な CPU 実行を実現し、AI ファクトリーがより多くのエージェント、評価、データ パイプラインを実行できるよう支援します。
AI ファクトリーとスーパーコンピューティング センターは、単一の分散コンピューティング エンジンとして数千基の GPU に広がっています。アクセラレーターを最大限に活用し続けるために、AI と科学的ワークロードには確定的な遅延、ロスレスのスループット、安定したイテレーション時間、データ センター内だけでなく複数のサイトにわたる拡張能力が求められます。
NVIDIA ネットワーキングは、NVIDIA NVLink スケールアップ、NVIDIA Quantum InfiniBand と Spectrum-X™ イーサネット スケールアウト、Spectrum-XGS イーサネット マルチデータ センター スケールアクロス、インフラ サービス向けの NVIDIA® BlueField® DPU と DOCA™、次世代シリコンフォトニクス プラットフォームを組み合わせて、これを可能にするフルスタック ファブリックを提供し、世界で最も要求の厳しい AI データ センターを実現します。
NVIDIA HGX は、8 基の NVIDIA Rubin、NVIDIA Blackwell、または NVIDIA Blackwell Ultra SXM を搭載した 1 つのベースボードで利用できます。Rubin GPU は、NVIDIA Vera CPU または x86 ベースのベースボードと組み合わせることができます。 ハードウェアとソフトウェアの強力な組み合わせが、前例のない AI とスーパーコンピューティング性能の基盤を築きます。
| System Specifications | NVIDIA HGX Vera Rubin NVL8<sup>1</sup> | NVIDIA HGX Rubin NVL8<sup>1</sup> |
|---|---|---|
| Configuration | 8x NVIDIA Rubin SXM with Single Socket Vera CPU | 8x NVIDIA Rubin SXM |
| CPU | Core Count | NVIDIA Vera CPU | 88 Custom NVIDIA Olympus Cores (Arm® compatible) with Spatial Multithreading (SMT) | x86 CPU<sup>4</sup> |
| CPU Memory | Bandwidth | 1.5TB LPDDR5X | 1.2 TB/s | x86 CPU<sup>4</sup> |
| NVFP4 Inference | 400 PFLOPS | |
| NVFP4 Training<sup>2</sup> | 280 PFLOPS | |
| FP8/FP6 Training<sup>2</sup> | 140 PFLOPS | |
| INT8<sup>2</sup> | 2 POPS | |
| FP16/BF16<sup>2</sup> | 32 PFLOPS | |
| TF32<sup>2</sup> | 16 PFLOPS | |
| FP32 | 1,040 TFLOPS | |
| FP64 | 265 TFLOPS | |
| FP32 SGEMM<sup>3</sup> | 3,200 TFLOPS | |
| FP64 DGEMM<sup>3</sup> | 1,600 TFLOPS | |
| GPU Memory | Bandwidth | 2.3 TB HBM4 | 176 TB/s | |
| NVLink Switch Bandwidth | 28.8 TB/s | |
| NVIDIA NVLink | Sixth Generation | |
| Networking Bandwidth | 1.6 TB/s | |
| Individual GPU Specifications | NVIDIA Rubin GPU<sup>1</sup> |
|---|---|
| NVFP4 Inference | 50 PFLOPS |
| NVFP4 Training<sup>2</sup> | 35 PFLOPS |
| FP8/FP6 Training<sup>2</sup> | 17.5 PFLOPS |
| INT8<sup>2</sup> | 250 TOPS |
| FP16/BF16<sup>2</sup> | 4 PFLOPS |
| TF32<sup>2</sup> | 2 PFLOPS |
| FP32 | 130 TFLOPS |
| FP64 | 33 TFLOPS |
| FP32 SGEMM<sup>2</sup> | 400 TFLOPS |
| FP64 DGEMM<sup>2</sup> | 200 TFLOPS |
| NVLink Bandwidth | 3.6 TB/s |
| NVIDIA NVLink | Sixth Generation |
| GPU Memory | Bandwidth | 288 GB HBM4 | 22 TB/s |
1. 予備情報。 記載の数値は、予告なしに変更される場合があります。 NVFP4 推論の仕様はスパースです。
2. 密行列の仕様。
3. Tensor コア ベースのエミュレーション アルゴリズムを使用したピーク パフォーマンス。
4. CPU とメモリの仕様は、OEM の製品によって定義されています。
| HGX B300<sup>4</sup> | HGX B200<sup>4</sup> | |
|---|---|---|
| Form Factor | 8x NVIDIA Blackwell Ultra SXM | 8x NVIDIA Blackwell SXM |
| FP4 Tensor Core<sup>1</sup> | 144 PFLOPS | 108 PFLOPS | 144 PFLOPS | 72 PFLOPS |
| FP8/FP6 Tensor Core<sup>2</sup> | 72 PFLOPS | 72 PFLOPS |
| INT8 Tensor Core<sup>2</sup> | 3 POPS | 72 POPS |
| FP16/BF16 Tensor Core<sup>2</sup> | 36 PFLOPS | 36 PFLOPS |
| TF32 Tensor Core<sup>2</sup> | 18 PFLOPS | 18 PFLOPS |
| FP32 | 600 TFLOPS | 600 TFLOPS |
| FP64/FP64 Tensor Core | 10 TFLOPS | 296 TFLOPS |
| Total Memory | 2.1 TB | 1.4 TB |
| NVIDIA NVLink | Fifth generation | Fifth generation |
| NVIDIA NVLink Switch™ | NVLink 5 Switch | NVLink 5 Switch |
| NVLink GPU-to-GPU Bandwidth | 1.8 TB/s | 1.8 TB/s |
| Total NVLink Bandwidth | 14.4 TB/s | 14.4 TB/s |
| Networking Bandwidth | 1.6 TB/s | 0.8 TB/s |
| Attention Performance<sup>3</sup> | 2x | 1x |
1. 疎行列 | 密行列における性能。
2. 疎行列計算時の性能。 密行列計算時の性能は、疎行列計算の ½ となります。
3. NVIDIA Blackwell との比較。
4. HGX B300 と HGX B200 が現在出荷されています。
NVIDIA Vera Rubin プラットフォームの詳細を見る