NVIDIA HGX
プラットフォーム

あらゆるデータ センター向けに AI とハイパフォーマンス コンピューティングを強化します。

概要

あらゆるデータセンター向けに AI と HPC を強化します。

NVIDIA HGX™ プラットフォームは、NVIDIA GPU、NVIDIA Vera CPUNVIDIA NVLink™NVIDIA ネットワーク、完全に最適化された AI およびハイパフォーマンス コンピューティング (HPC) ソフトウェア スタックの能力を最大限に結集して、あらゆるデータセンターに最高のアプリケーションパフォーマンスを提供することで、最速でインサイトを得ることができます。

NVIDIA HGX Rubin NVL8 は、8 基の NVIDIA Rubin GPU と第 6 世代の高速 NVLink 相互接続を統合することで、HGX B200 と比較して最大 10 倍のトークン ファクトリー スループットを実現し、4分の1の GPU で同等のトレーニング パフォーマンスを実現します。NVIDIA Rubin ベース HGX システムは、最も要求の厳しいエージェント型 AI、データ分析、HPC ワークロード向けに設計されています。 NVIDIA HGX Rubin NVL8 は、HGX Vera Rubin NVL8 として構成された NVIDIA Vera CPU、または x86 ベースの CPU ベースボードと組み合わせることができます。

NVIDIA Vera Rubin が本格生産を開始し、世界中のエージェント型 AI ファクトリーを強化

NVIDIA Vera Rubin は本格的な量産体制に入っています。台湾の大手サーバー メーカーやグローバル サプライチェーン リーダーが Vera Rubin ベースのシステムを大規模に製造および出荷し、AI ラボ、クラウド プロバイダー、ハイパースケーラーが明日のインテリジェンスを構築できるよう支援します。

次世代のエージェント型 AI の高速化

HGX Rubin NVL8 でトークン ファクトリーのスループットを向上

大規模なエージェント型 AI と推論モデルを提供するには、極めて高い推論スループットが必要です。400 PFLOPS の NVFP4 演算能力、3 倍に匹敵する 176 TB/s のメモリ帯域幅、GPU 間の高速通信を可能にし、2 倍に匹敵する 28.8 TB/s の NVLink Switch 帯域幅などのアーキテクチャ上の革新により、HGX Rubin NVL8 は HGX B200 と比較して 10 倍のトークン ファクトリー スループットを実現します。このパフォーマンスの飛躍的な向上により、AI ファクトリーはより多くのユーザーにサービスを提供でき、トークン収益を最大化することで、トークンあたりのコストを削減できるようになります。

パフォーマンスの予測値は変更される場合があります。FTL <=500ms、ISL=4K、OSL=4K の Kimi K2-Thinking モデル。 Sparse NVFP4 搭載 HGX Rubin NVL8、Dense NVFP4 搭載 HGX B200

パフォーマンスの予測値は変更される場合があります。4K シーケンス長の 15T トークンで事前トレーニングされた DeepSeek-R1 を基盤とする GPU の数。 

4 分の 1 の数の GPU で次世代 AI モデルをトレーニング

HGX Rubin NVL8 は、8 基の GPU サーバー フォーム ファクターに画期的な混合エキスパート型の事前学習を実現し、HGX B200 と比較して 4 倍の NVFP4 トレーニング FLOPS、1.6 倍の高速 HBM メモリ容量、2 倍の NVLink 帯域幅などのアーキテクチャの革新により、4 分の 1 の数の GPU で次世代エージェント型 AI モデルをトレーニングできます。このトレーニング効率の飛躍的な向上により、組織は同じインフラストラクチャ フットプリント内でより多くのモデルをトレーニングできるようになり、モデル開発のコストを削減し、AI インフラ投資に対する収益率を最大化できます。

NVIDIA Vera CPU

NVIDIA Vera CPU

NVIDIA Vera は、AI 時代向けの CPU であり、エージェント型 AI、強化学習、大規模なデータ処理向けに設計されています。 NVIDIA Olympus コア、高帯域幅 LPDDR5X メモリ、NVIDIA Scalable Coherency Fabric は、アクセラレーテッド コンピューティングに加えて、高速で効率的な CPU 実行を実現し、AI ファクトリーがより多くのエージェント、評価、データ パイプラインを実行できるよう支援します。 

NVIDIA ネットワークによる HGX の高速化

AI ファクトリーとスーパーコンピューティング センターは、単一の分散コンピューティング エンジンとして数千基の GPU に広がっています。アクセラレーターを最大限に活用し続けるために、AI と科学的ワークロードには確定的な遅延、ロスレスのスループット、安定したイテレーション時間、データ センター内だけでなく複数のサイトにわたる拡張能力が求められます。

NVIDIA ネットワーキングは、NVIDIA NVLink スケールアップ、NVIDIA Quantum InfiniBand と Spectrum-X™ イーサネット スケールアウト、Spectrum-XGS イーサネット マルチデータ センター スケールアクロス、インフラ サービス向けの NVIDIA® BlueField® DPU と DOCA™、次世代シリコンフォトニクス プラットフォームを組み合わせて、これを可能にするフルスタック ファブリックを提供し、世界で最も要求の厳しい AI データ センターを実現します。

NVIDIA HGX の仕様

NVIDIA HGX は、8 基の NVIDIA Rubin、NVIDIA Blackwell、または NVIDIA Blackwell Ultra SXM を搭載した 1 つのベースボードで利用できます。Rubin GPU は、NVIDIA Vera CPU または x86 ベースのベースボードと組み合わせることができます。 ハードウェアとソフトウェアの強力な組み合わせが、前例のない AI とスーパーコンピューティング性能の基盤を築きます。

System Specifications NVIDIA HGX Vera Rubin NVL8<sup>1</sup> NVIDIA HGX Rubin NVL8<sup>1</sup>
Configuration 8x NVIDIA Rubin SXM with Single Socket Vera CPU 8x NVIDIA Rubin SXM
CPU | Core Count NVIDIA Vera CPU | 88 Custom NVIDIA Olympus Cores (Arm® compatible) with Spatial Multithreading (SMT) x86 CPU<sup>4</sup>
CPU Memory | Bandwidth 1.5TB LPDDR5X | 1.2 TB/s x86 CPU<sup>4</sup>
NVFP4 Inference 400 PFLOPS
NVFP4 Training<sup>2</sup> 280 PFLOPS
FP8/FP6 Training<sup>2</sup> 140 PFLOPS
INT8<sup>2</sup> 2 POPS
FP16/BF16<sup>2</sup> 32 PFLOPS
TF32<sup>2</sup> 16 PFLOPS
FP32 1,040 TFLOPS
FP64 265 TFLOPS
FP32 SGEMM<sup>3</sup> 3,200 TFLOPS
FP64 DGEMM<sup>3</sup> 1,600 TFLOPS
GPU Memory | Bandwidth 2.3 TB HBM4 | 176 TB/s
NVLink Switch Bandwidth 28.8 TB/s
NVIDIA NVLink Sixth Generation
Networking Bandwidth 1.6 TB/s
Individual GPU Specifications NVIDIA Rubin GPU<sup>1</sup>
NVFP4 Inference 50 PFLOPS
NVFP4 Training<sup>2</sup> 35 PFLOPS
FP8/FP6 Training<sup>2</sup> 17.5 PFLOPS
INT8<sup>2</sup> 250 TOPS
FP16/BF16<sup>2</sup> 4 PFLOPS
TF32<sup>2</sup> 2 PFLOPS
FP32 130 TFLOPS
FP64 33 TFLOPS
FP32 SGEMM<sup>2</sup> 400 TFLOPS
FP64 DGEMM<sup>2</sup> 200 TFLOPS
NVLink Bandwidth 3.6 TB/s
NVIDIA NVLink Sixth Generation
GPU Memory | Bandwidth 288 GB HBM4 | 22 TB/s

1. 予備情報。 記載の数値は、予告なしに変更される場合があります。 NVFP4 推論の仕様はスパースです。
2. 密行列の仕様。
3. Tensor コア ベースのエミュレーション アルゴリズムを使用したピーク パフォーマンス。
4. CPU とメモリの仕様は、OEM の製品によって定義されています。

HGX B300<sup>4</sup> HGX B200<sup>4</sup>
Form Factor 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor Core<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor Core<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor Core<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor Core<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor Core 10 TFLOPS 296 TFLOPS
Total Memory 2.1 TB 1.4 TB
NVIDIA NVLink Fifth generation Fifth generation
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU-to-GPU Bandwidth 1.8 TB/s 1.8 TB/s
Total NVLink Bandwidth 14.4 TB/s 14.4 TB/s
Networking Bandwidth 1.6 TB/s 0.8 TB/s
Attention Performance<sup>3</sup> 2x 1x

1. 疎行列 | 密行列における性能。
2. 疎行列計算時の性能。 密行列計算時の性能は、疎行列計算の ½ となります。
3. NVIDIA Blackwell との比較。
4. HGX B300 と HGX B200 が現在出荷されています。

HGX B300 HGX B200
Form Factor 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor Core<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor Core<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor Core<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor Core<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor Core 10 TFLOPS 296 TFLOPS
Total Memory 2.1 TB 1.4 TB
NVIDIA NVLink Fifth generation Fifth generation
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU-to-GPU Bandwidth 1.8 TB/s 1.8 TB/s
Total NVLink Bandwidth 14.4 TB/s 14.4 TB/s
Networking Bandwidth 1.6 TB/s 0.8 TB/s
Attention Performance<sup>3</sup> 2x 1x

NVIDIA Vera Rubin プラットフォームの詳細を見る