NVIDIA Grace Blackwell GB200

NVIDIA GB200 NVL72

生成 AI の新時代にパワーを与えます。

リアルタイムの兆単位パラメータ モデルを解放する

NVIDIA GB200 NVL72 は、ラックスケールの水冷式デザインで、36 基の Grace CPU と 72基 の Blackwell GPU を接続するシステムです。 72 GPU NVIDIA NVLink™ ドメインは、単一の巨大 GPU として機能し、30 倍高速なリアルタイムでの兆単位パラメータの大規模言語モデル (LLM) 推論を実現します。

GB200 Grace Blackwell Superchip は、NVIDIA GB200 NVL72 の主要コンポーネントであり、2 つの高性能 NVIDIA Blackwell Tensor コア GPU と NVIDIA Grace™ CPU を、NVLink-C2C 相互接続を使用して 2 つの Blackwell GPU を接続しています。

Blackwell のラックスケール アーキテクチャによる兆単位パラメーターのリアルタイムの推論とトレーニング

NVIDIA GB200 NVL72 は 1 つのラックに収められたエクサスケール コンピューターです。史上最大の NVIDIA NVLink ドメインで 72基 の NVIDIA Blackwell GPU が相互接続される NVLink Switch System は、AI やハイパフォーマンス コンピューティング (HPC) ワークロードで、毎秒 130 テラバイト (TB/秒) の低遅延 GPU 通信を実現します。

ハイライト

次世代 AI とアクセラレーテッド コンピューティングをスーパーチャージ

LLM 推論

30 倍

LLM トレーニング

4 倍

電力効率

25 倍

データ処理

18 倍

LLM 推論とエネルギー効率: TTL = 50ミリ秒 (ms)、FTL = 5s、32,768 入力/1,024 出力、NVIDIA HGX™ H100 を InfiniBand (IB) でスケールし、GB200 NVL72 とトレーニング 1.8T MOE 4096x HGX H100 でスケール IB vs. 456x GB200 NVL72 でスケール IB。クラスター サイズ: 32,768
TPC-H Q4 クエリから派生した Snappy/Deflate 圧縮によるデータベースの結合と集約のワークロード。x86、H100 シングル GPU、および GB200 NLV72 vs. Intel Xeon 8480+ のシングル GPU のカスタム クエリ実装
予想されるパフォーマンスは変更される可能性があります。

リアルタイム LLM 推論

GB200 NVL72 は、FP4 AI を可能にする最先端の機能と第 2 世代の Transformer エンジンを導入しています。第 5 世代の NVIDIA NVLink と組み合わせることで、兆単位パラメータ言語モデルにおいて 30 倍高速なリアルタイム LLM 推論性能を発揮します。この進歩は、新しいマイクロスケーリング フォーマットを導入し、高精度とスループットの向上を提供する新世代の Tensor コアによって実現可能になりました。 さらに、GB200 NVL72 は、NVLink と液冷を使用し、通信のボトルネックを克服できる 1 つの巨大な 72 GPU ラックを作成します。

大規模トレーニング

GB200 NVL72 には、FP8 の精度を提供し、より高速化された第 2 世代の Transformer Engine が搭載されており、大規模言語モデルでの学習を 4 倍も高速化することができます。 このブレークスルーは、1.8 TB/秒の GPU 間相互接続、InfiniBand ネットワーク、NVIDIA Magnum IO™ ソフトウェアを提供する第 5 世代の NV Link によって支えられています。

エネルギー効率に優れたインフラ

液冷 GB200 NVL72 ラックは、データ センターの二酸化炭素排出量とエネルギー消費を削減します。液冷により計算機密度が向上し、使用する床面積は削減され、大規模な NVLink ドメイン アーキテクチャによる高帯域幅、低遅延の GPU 通信が可能になります。NVIDIA H100 空冷インフラと比較して、GB200 は同じ電力で 25 倍の性能を発揮し、水の消費量を削減します。

データ処理

データベースは、企業における大量のデータの操作、加工、分析において重要な役割を果たします。GB200 は、高帯域幅メモリ性能の NVLink-C2CNVIDIA Blackwell アーキテクチャの専用 Decompression Engine を活用し、CPU と比較して重要なデータベース クエリを 18 倍高速化し、TCO を 5 倍にします。

NVIDIA GB200 NVL4

NVIDIA GB200 NVL4

NVIDIA GB200 NVL4 は、コンバージド HPC と AI の未来を切り開き、NVLink-C2C インターコネクトを介して 4 台の NVIDIA NVLink Blackwell GPU と 2 台の Grace CPU を統合し、画期的なパフォーマンスを実現します。液冷 NVIDIA MGX™ モジュラー サーバーと互換性があり、前世代と比較して科学コンピューティング、科学トレーニング向け AI、推論アプリケーション向けに最大 2 倍のパフォーマンスを発揮します。

特徴

技術的なブレイクスルー

Blackwell アーキテクチャ

NVIDIA Blackwell アーキテクチャは、アクセラレーテッド コンピューティングに画期的な進歩をもたらし、比類のないパフォーマンス、効率性、スケールでコンピューティングの新時代を強化します。

NVIDIA Grace CPU

NVIDIA Grace CPU は、AI、クラウド、HPC アプリケーションを実行する最新のデータ センター向けに設計された画期的なプロセッサです。 現代の主要なサーバー プロセッサと比べて電力効率が 2 倍となり、パフォーマンスとメモリ帯域幅に優れています。

第 5 世代 NVIDIA NVLink

エクサケール コンピューティングと 1 兆パラメータ AI モデルの可能性を最大限に引き出すためには、サーバー クラスター内のすべての GPU 間における迅速かつスムーズな通信が不可欠です。第 5 世代の NVLink は、兆単位パラメータ AI モデル向けに加速されたパフォーマンスを発揮するスケールアップ型相互接続です。

NVIDIA ネットワーキング

データ センターのネットワークは、AI の進歩とパフォーマンスを推進するうえで重要な役割を果たし、分散 AI モデルのトレーニングと生成 AI のパフォーマンスを支えるバックボーンとして機能します。NVIDIA Quantum-X800 InfiniBandNVIDIA Spectrum™-X 800 Ethernet、および NVIDIA® BlueField®-3 DPU は、数百から数千の Blackwell GPU におよぶ効率的な拡張性を実現し、最適なアプリケーション性能を実現します。

新たな産業革命のための AI ファクトリー

仕様

GB200 NVL72 の仕様¹

  GB200 NVL72 GB200 Grace Blackwell Superchip
構成 36 Grace CPU | 72 Blackwell GPU 1 Grace CPU | 2 Blackwell GPU
FP4 Tensor Core2 1,440 | 720 PFLOPS 40 | 20 PFLOPS
FP8/FP6 Tensor Core2 720 PFLOPS 20 TFLOPS
INT8 Tensor Core2 720 POPS 20 POPS
FP16/BF16 Tensor コア2 360 PFLOPS 10 TFLOPS
TF32 Tensor コア2 180 PFLOPS 5 PFLOPS
FP32 5,760 TFLOPS 160 TFLOPS
FP64 / FP64 Tensor コア 2,880 TFLOPS 80 TFLOPS
GPU メモリ帯域幅 13.4 TB HBM3E | 576 TB/秒 372 GB HBM3E | 16 TB/秒
NVLink メモリ帯域幅 130 TB/秒 3.6 TB/秒
CPU コア数 2592 個の Arm® Neoverse V2 コア 72 個の Arm Neoverse V2 コア
CPU メモリ帯域幅 17 TB LPDDR5X | 14 TB/秒 最大 480GB LPDDR5X | 最高 512 GB/秒

今すぐ始める

最新情報を受け取る

登録すると、NVIDIA Blackwell の販売開始時にお知らせいたします。

NVIDIA GB300 NVL72

NVIDIA GB300 NVL72 は、テストタイム スケーリング推論と AI 推論タスク向けに特別に構築された 72 基の NVIDIA Blackwell Ultra GPU と、36 基の Arm® ベースの NVIDIA Grace™ CPU を単一のプラットフォームに統合する完全液冷式ラックスケールのアーキテクチャを搭載しています。 GB300 NVL72 により高速化された AI ファクトリーは、NVIDIA Quantum-X800 InfiniBand または Spectrum-X Ethernet、ConnectX-8 SuperNIC、NVIDIA Mission Control Management を活用し、NVIDIA Hopper ベースのプラットフォームと比較して、AI ファクトリーの出力パフォーマンスが全体的に最大 50 倍向上します。