次世代向けに構築された AI スーパーコンピューター
概要
NVIDIA Vera Rubin NVL72 は、72 基の Rubin GPU、36 基の Vera CPU、ConnectX®-9 SuperNIC、BlueField®-4 DPU など、NVIDIA の最先端テクノロジを統合しています。 これは、NVIDIA NVLink™ 6 スイッチを搭載した一貫性のあるラックスケール プラットフォームでインテリジェンスを拡張し、NVIDIA Quantum-X800 InfiniBand と Spectrum-X™ イーサネットによるスケールアウトを実現することで、大規模な AI 産業革命を推進します。
第 3 世代 NVIDIA MGX™ NVL72 ラック設計を基盤とする Vera Rubin NVL72 は、従来世代からのスムーズな移行を実現し、Blackwell との比較で AI トレーニングを最大 1/4 の GPU で、AI 推論を 1/10 のトークンあたりコストで提供します。このラックスケール AI スーパーコンピューターは、ケーブル不要のモジュラー トレイ設計を採用し、80 社以上の MGX エコシステム パートナーのサポートにより、迅速なデプロイで世界トップクラスのパフォーマンスを提供します。
パフォーマンス
NVIDIA Rubin は、mixture-of-expert (MoE) モデルにおいて、NVIDIA Blackwell™ アーキテクチャとの比較で、AI トレーニングに必要な GPU を最大 1/4 に削減します。
パフォーマンスは変更される場合があります。100T トークンでトレーニングされた 10T MoE モデルをベースにした GPU の数(1か月の固定期間内)。
LLM 推論パフォーマンスは変更される場合があります。 Blackwell GB200 NVL72 と Rubin NVL72 との比較。832K/18K ISL/OSL を使用した Kimi-K2-Thinking モデルに基づく 100 万トークンあたりのコスト。
NVIDIA Rubinは、高度にインタラクティブな深層推論エージェント型 AI において、NVIDIA Blackwell アーキテクチャとの比較で、100 万トークンあたりのコストを 1/10 に削減します。
画期的なテクノロジ
仕様¹
| NVIDIA Vera Rubin NVL72 | NVIDIA Vera Rubin Superchip | NVIDIA Rubin GPU | |
|---|---|---|---|
| 構成 | 72 基の NVIDIA Rubin GPU | 36 基の NVIDIA Vera CPU | 2 Rubin GPU | 1 Vera CPU | 1 Rubin GPU |
| NVFP4 推論 | 3,600 PFLOPS | 100 PFLOPS | 50 PFLOPS |
| NVFP4 トレーニング | 2,520 PFLOPS | 70 PFLOPS | 35 PFLOPS |
| FP8/FP6 トレーニング | 1,260 PFLOPS | 35 PFLOPS | 17.5 PFLOPS |
| INT8² 密度 | 18 POPS | 0.5 POPS | 0.25 POPS |
| FP16/BF16² 密度 | 288 PFLOPS | 8 PFLOPS | 4 PFLOPS |
| TF32² 密度 | 144 PFLOPS | 4 PFLOPS | 2 PFLOPS |
| FP32 | 9,360 TFLOPS | 260 TFLOPS | 130 TFLOPS |
| FP64 | 2,400 TFLOPS | 67 TFLOPS | 33 TFLOPS |
| FP32 SGEMM³ | 28,800 TFLOPS | 800 TFLOPS | 400 TFLOPS |
| FP64 DGEMM³ | 14,400 TFLOPS | 400 TFLOPS | 200 TFLOPS |
| GPU メモリ | 帯域幅 | 20.7 TB HBM4 | 1,580 TB/秒 | 576 GB HBM4 | 44 TB/秒 | 288 GB HBM4 | 22 TB/秒 |
| NVLink 帯域幅 | 260 TB/秒 | 7.2 TB/秒 | 3.6 TB/秒 |
| NVLink-C2C 帯域幅 | 65 TB/秒 | 1.8 TB/秒 | - |
| CPU コア数 | 3,168 個のカスタム NVIDIA Olympus コア (Arm 互換) | 88 個のカスタム NVIDIA Olympus コア (Arm 互換) | - |
| CPU メモリ | 54 TB LPDDR5X | 1.5 TB LPDDR5X | - |
| NVIDIA + HBM4 チップの合計 | 1,296 | 30 | 12 |
1. 速報値。すべての数値は変更される可能性があります
2. 密度仕様
3. Tensor Core ベースのエミュレーション アルゴリズムによるピーク パフォーマンス
今すぐ始める
NVIDIA から最新情報、お知らせなどをお届けします。