NVIDIA HGX AI
スーパーコンピューター

最もパワフルなエンドツーエンドの AI スーパーコンピューティング プラットフォーム。

AI、シミュレーション、データ分析のために構築

AI、複雑なシミュレーション、膨大なデータセットには、極めて高速な相互接続と完全に高速化されたソフトウェア スタックを備えた複数の GPU が必要です。 NVIDIA HGX™ AI スーパーコンピューティング プラットフォームは、NVIDIA GPU、NVLink®、NVIDIA ネットワーキング、完全に最適化された AI およびハイ パフォーマンス コンピューティング (HPC) ソフトウェア スタックの能力を結集することで、最高のアプリケーション性能を実現し、最速で洞察や知見を提供します。

比類なきエンドツーエンドのアクセラレーテッド コンピューティング プラットフォーム

NVIDIA HGX H100 は、H100 Tensor コア GPU と高速インターコネクトを組み合わせて、世界で最も強力なサーバーを形成します。最大 8 基の GPU の構成は、最大 640 ギガバイト (GB) の GPU メモリと 24 テラバイト/秒 (TB/s) の集約されたメモリ帯域幅により、前例のない高速化を実現します。また、32 ペタ FLOPS という驚異的な性能により、AI および HPC 向けの世界で最も強力なアクセラレーション スケールアップ サーバー プラットフォームが実現します。

HGX H100 は、NVIDIA Quantum-2 InfiniBand および Spectrum-X Ethernet を利用した、最高速度 400 ギガビット/秒 (Gb/s) を発揮する高度なネットワーク オプションを搭載し、最高の AI 性能を実現しています。 HGX H100 は、NVIDIA® BlueField®-3 データ プロセッシング ユニット (DPU) も搭載しており、ハイパースケール AI クラウドにおける クラウド ネットワーキング、コンポーザブル ストレージ、ゼロトラスト セキュリティ、GPU コンピューティングとの順応性を可能にします。

HGX Stack

NVIDIA HGX A100 8-GPU

NVIDIA HGX A100 with 8x A100 GPUs

NVIDIA HGX A100 4-GPU

NVIDIA HGX A100 with 4x A100 GPUs

ディープラーニングトレーニング: 性能と拡張性

GPT-3 で最大 4 倍高速な AI トレーニング

GPT-3 で最大 4 倍高速な AI トレーニング

NVIDIA H100 GPU は、FP8 精度の Transformer Engine を搭載し、大規模言語モデルに対して前世代の GPU と比較して最大 4 倍高速なトレーニングを提供します。 900 GB/秒の GPU 間相互接続を提供する第 4 世代 NVIDIA NVLink、ノード間すべての GPU による集合通信を高速化する NVLink Switch System、PCIe Gen5、および Magnum IO™ ソフトウェアの組み合わせにより、小規模な企業から大規模な統合 GPU クラスターまで、効率的な拡張性を実現します。これらインフラの進歩は、NVIDIA AI Enterprise ソフトウェア スイートと連携して動作し、HGX H100 を最も強力なエンドツーエンドの AI および HPC データセンター プラットフォームにしています。

ディープラーニング推論: 性能と汎用性

最大規模のモデルで最大 30 倍の AI 推論性能

5,300 億のパラメーターを持つ Megatron のチャットボット推論。

最大規模のモデルで最大 30 倍の AI 推論性能

AI は、さまざまなビジネス課題を幅広いニューラル ネットワークで解決します。優れた AI 推論アクセラレーターは、最高の性能を提供するだけでなく、データ センターからエッジまで、顧客が選択したあらゆる場所でこれらのネットワークを高速化するために必要な汎用性も備えていなければなりません。

HGX H100 は、市場をリードする NVIDIA の推論におけるリーダーシップをさらに拡大し、5,300 億パラメーターを持つ Megatron のチャットボットで、前世代に比べて推論を最大 30 倍加速します。

HPC 性能

HPC アプリケーションでは、1 秒ごとに膨大な量の計算を処理する必要があります。各サーバー ノードの計算処理密度を上げることで、必要なサーバー数が劇的に減ります。その結果、データ センターの消費電力、コスト、占有スペースを大幅に削減することができます。シミュレーションの高次元行列乗算では、計算のためにプロセッサが多数の隣接プロセッサからデータを取得する必要があります。そこで、NVIDIA NVLink で GPU を接続することが理想的となります。HPC アプリケーションで A100 の TF32 を活用すれば、単精度の密行列積演算のスループットを 4 年で最大 11 倍に上げることも可能です。

A100 80GB GPU を搭載した HGX は、マテリアル シミュレーションである Quantum Espresso で A100 40GB GPU の 2 倍のスループットを実現します。インサイトを得るまでの時間を大幅に短縮します。

HPC アプリケーションの性能を最大 7 倍 に向上

HPC アプリケーションの性能を最大 7 倍 に向上

HGX H100 は、倍精度の Tensor コアの 1 秒あたりの浮動小数点演算 (FLOPS) を 3 倍にし、HPC 向けに 8 GPU 構成で最大 535 テラ FLOPS、4 GPU 構成で 268 テラ FLOPS の FP64 コンピューティングを提供します。 AI と融合した HPC アプリケーションは、H100 の TF32 精度を活用して、コード変更なしで単精度行列乗算演算で約 8,000 テラ FLOPS のスループットを達成することもできます。

H100 は、DNA 配列のアライメントやタンパク質構造予測のためのタンパク質アライメントに使用される Smith-Waterman などの動的プログラミング アルゴリズムを、NVIDIA Ampere アーキテクチャ ベースの GPU より 7 倍高速化する DPX 命令を備えています。 H100 は、遺伝子配列決定などの診断機能のスループットを向上させることで、あらゆる診療所で正確なリアルタイムの病気の診断や的確な薬の処方を提供できるようにします。

Up to 1.8X Higher Performance for HPC Applications

Quantum Espresso​

Up to 1.8X Higher Performance for HPC Applications

NVIDIA ネットワーキングで高速化する HGX

データ センターはコンピューティングの新しい単位であり、ネットワークはデータ センター全体でアプリケーションの性能を拡張する上で重要な役割を担っています。 NVIDIA Quantum InfiniBand との組み合わせにより、HGX は世界最高水準の性能と効率を実現し、コンピューティング リソースを最大限に活用します。 NVIDIA Quantum InfiniBand は、ネットワーク内コンピューティングの高速化、リモート ダイレクト メモリ アクセス (RDMA)、および高度なサービス品質 (QoS) 機能で新たな時代をリードします。

イーサネットを導入している AI クラウド データ センターでは、HGX は 400 Gb/s イーサネット上で最高の AI 性能を実現する NVIDIA Spectrum-X ネットワーキング プラットフォームと併用するのが最適です。 NVIDIA Spectrum™-4 スイッチと BlueField-3 DPU を搭載した Spectrum-X は、最適なリソース使用率と性能の分離により、あらゆる規模で数千もの同時 AI ジョブに対して一貫した予測可能な結果を​​提供します。 Spectrum-X は、高度なクラウド マルチテナンシーとゼロトラスト セキュリティを可能にします。 Spectrum-X により、クラウド サービス プロバイダーは、投資収益率を向上させながら、AI ソリューションの開発、展開、市場投入までの時間を加速することができます。

HGX H100 と NVIDIA ネットワークの接続

  NVIDIA Quantum-2 InfiniBand
プラットフォーム:

Quantum-2 スイッチ、ConnectX-7 アダプター、BlueField-3 DPU

NVIDIA Spectrum-X
プラットフォーム:

Spectrum-4 スイッチ、BlueField-3 DPU、Spectrum-X ライセンス

NVIDIA Spectrum イーサネット プラットフォーム:

Spectrum スイッチ、ConnectX アダプター、BlueField DPU

DLトレーニング 最適 より良い 良い
科学シミュレーション 最適 より良い 良い
データ分析 最適 より良い 良い
DL 推論 最適 より良い 良い

NVIDIA HGX の仕様

NVIDIA HGX は、4 基または 8 基の H100 GPU または 4 基または 8 基の A100 GPU を搭載した単一の基板で利用することができます。これらのハードウェアとソフトウェアの強力な組み合わせは、前例のない AI スーパーコンピューティング性能の基盤を築きます。

  HGX H100
  4-GPU 8-GPU
GPU HGX H100 4-GPU HGX H100 8-GPU
フォーム ファクター NVIDIA H100 SXM 4 基 NVIDIA H100 SXM 8 基
HPC および AI 計算 (FP64/TF32/FP16/FP8/INT8) 268TF/4PF/8PF/16PF/16POPS 535TF/8PF/16PF/32PF/32POPS
メモリ 最大 320 GB 最大 640 GB
NVLink 第 4 世代 第 4 世代
NVSwitch なし 第 3 世代
NVLink Switch なし なし
GPU 間の帯域幅を備えた NVS なし 900 GB/秒
合計帯域幅 3.6 TB/秒 7.2 TB/秒
  HGX A100
  4-GPU 8-GPU
GPU HGX A100 4-GPU HGX A100 8-GPU
フォーム ファクター NVIDIA A100 SXM 4 基 NVIDIA A100 SXM 8 基
HPC および AI 計算 (FP64/TF32/FP16/INT8) 78TF/1.25PF/2.5PF/5POPS 156TF/2.5PF/5PF/10POPS
メモリ 最大 320 GB 最大 640 GB
NVLink 第 3 世代 第 3 世代
NVSwitch なし 第 2 世代
GPU 間の帯域幅を備えた NVS なし 600 GB/秒
合計帯域幅 2.4 TB/秒 4.8 TB/秒

HGX-1 and HGX-2 Reference Architectures

Powered by NVIDIA GPUs and NVLINK

NVIDIA HGX-1 and HGX-2 are reference architectures that standardize the design of data centers accelerating AI and HPC. Built with NVIDIA SXM2 V100 boards, with NVIDIA NVLink and NVSwitch interconnect technologies, HGX reference architectures have a modular design that works seamlessly in hyperscale and hybrid data centers to deliver up to 2 petaFLOPS of compute power for a quick, simple path to AI and HPC.

Powered by NVIDIA GPUs and NVLINK

Specifications

8-GPU
HGX-1 
16-GPU
HGX-2 
GPUs 8x NVIDIA V100 16x NVIDIA V100
AI Compute 1 petaFLOPS (FP16) 2 petaFLOPS (FP16)
Memory 256 GB 512 GB
NVLink 2nd generation 2nd generation
NVSwitch N/A Yes
NVSwitch GPU-to-GPU Bandwidth N/A 300 GB/s
Total Aggregate Bandwidth 2.4 TB/s 4.8 TB/s

NVIDIA H100 GPU の詳細をご覧ください。