NVIDIA HGX AI スーパーコンピューター

最もパワフルなエンドツーエンドの AI スーパーコンピューティング プラットフォーム。

シミュレーション、データ分析、AI のコンバージェンス向けに構築

大規模なデータセット、急激に増大するモデル サイズ、複雑なシミュレーションには、非常に高速な相互接続と完全に高速化されたソフトウェア スタックを備えた複数の GPU が必要になります。NVIDIA HGX™ AI スーパーコンピューティング プラットフォームは、NVIDIA GPU、NVIDIA® NVLink®、NVIDIA InfiniBand ネットワーク、および NVIDIA NGC™ カタログから完全に最適化された NVIDIA AI および HPC ソフトウェア スタックのフルパワーを結集し、最高のアプリケーション パフォーマンスを実現します。NVIDIA HGX は、エンドツーエンドのパフォーマンスと柔軟性を備えており、研究者と科学者はシミュレーション、データ分析、AI を組み合わせて科学の発展にさらに貢献できるようになります。

比類なきエンドツーエンドのアクセラレーテッド コンピューティング プラットフォーム

NVIDIA HGX は、 NVIDIA A100 Tensor コア GPU と高速相互接続を組み合わせることで、世界で最もパワフルなサーバーを形成します。HGX には 16 基の A100 GPU が搭載され、最大 1.3 テラバイト (TB) の GPU メモリと、2 テラバイト/秒 (TB/s) を超えるメモリ帯域幅を備えており、前例のない高速化が実現します。

HGX は、前世代と比較して、Tensor Float 32 (TF32) では AI の速度がこれまでの常識を打ち破る最大 20 倍に、FP64 では HPC の速度が 2.5 倍にもなります。NVIDIA HGX は 10 ペタフロップスという圧倒的な性能を発揮し、AI および HPC 向けの世界で最もパワフルなアクセラレーテッド スケールアップ サーバー プラットフォームを形成します。

徹底的にテストされ簡単に導入ができる HGX は、パートナー企業のサーバーに統合でき、保証付きのパフォーマンスを提供します。HGX プラットフォームは、SXM GPU を搭載した 4 GPU と 8 GPU どちらの HGX ベースボードとしても利用可能です。また、PCIe GPU としても利用可能で、主要なサーバーに最高の演算性能をもたらすモジュール式デプロイも選択できます。

HGX Stack

NVIDIA HGX A100 8-GPU

NVIDIA HGX A100 with 8x A100 GPUs

NVIDIA HGX A100 4-GPU

NVIDIA HGX A100 with 4x A100 GPUs

ディープラーニングのパフォーマンス

最大モデルで最大 3 倍の AI トレーニング

DLRM トレーニング

Up to 3X Higher AI Training on Largest Models

ディープラーニング モデルは爆発的にサイズと複雑さを増しています。スケーラビリティのために、大容量のメモリ、大規模な演算処理能力、高速の相互接続を備えたシステムが必要になります。NVIDIA NVSwitch™ がすべての GPU 間での高速通信を可能にするため、HGX は最先端の AI モデルを処理できます。A100 80GB GPU では、GPU メモリが 2 倍になり、単一の HGX で最大 1.3TB のメモリを実現します。膨大なデータ テーブルを持つディープラーニング レコメンデーション モデル (DLRM) などの超大規模なモデルにおける昨今のワークロードが、A100 40GB GPU 搭載の HGX に比べ最大 3 倍に高速化されます。

機械学習のパフォーマンス

ビッグ データ分析のベンチマークで A100 40GB の 2 倍の高速化

2X Faster than A100 40GB on Big Data Analytics Benchmark

機械学習モデルでは、重要なインサイトを集めるために、極めて大きなデータセットを読み込み、変換し、処理する必要があります。A100 80GB GPU 搭載の HGX は、最大 1.3TB の統合メモリと、NVSwitch とすべての GPU が通信することにより、膨大なデータセットをロードして計算を実行し、実用的なインサイトを素早く導き出すことができます。

ビッグ データ分析のベンチマークでは、A100 80GB は A100 40GB の 2 倍のスループットでインサイトをもたらしました。データセット サイズが爆発的に増加する昨今のワークロードに最適です。

HPC のパフォーマンス

HPC アプリケーションでは、1 秒ごとに膨大な量の計算を処理する必要があります。各サーバー ノードの計算処理密度を上げることで、必要なサーバー数が劇的に減ります。その結果、データ センターの消費電力、コスト、占有スペースを大幅に削減することができます。シミュレーションの高次元行列乗算では、計算のためにプロセッサが多数の隣接プロセッサからデータを取得する必要があります。そこで、NVIDIA NVLink で GPU を接続することが理想的となります。HPC アプリケーションで A100 の TF32 を活用すれば、単精度の密行列積演算のスループットを 4 年で最大 11 倍に上げることも可能です。

A100 80GB GPU を搭載した HGX は、マテリアル シミュレーションである Quantum Espresso で A100 40GB GPU の 2 倍のスループットを実現します。インサイトを得るまでの時間を大幅に短縮します。

4 年間で HPC パフォーマンスが 11 倍に

トップ HPC アプリ

11X More HPC Performance in Four Years

HPC アプリケーションのパフォーマンスが最大 1.8 倍に

Quantum Espresso​

Up to 1.8X Higher Performance for HPC Applications

NVIDIA HGX 仕様

NVIDIA HGX は、4 つまたは 8 つの A100 GPU (それぞれ 40 GB または 80 GB の GPU メモリを搭載) を搭載した単一ベースボードで利用可能です。4GPU 構成は NVIDIA NVLink® と完全に相互接続されており、8GPU 構成は NVSwitch と相互接続されています。2 つの NVIDIA HGX A100 8GPU ベースボードを NVSwitch の相互接続で組み合わせ、パワフルな 16 GPU シングル ノードを作ることもできます。

HGX は PCIe フォーム ファクターでも利用でき、 モジュール式で簡単に導入できるようになります。それぞれが 40GB または 80GB の GPU メモリを備えたメインストリーム サーバーに最高のコンピューティング パフォーマンスをもたらします。

ハードウェアとソフトウェアのこのパワフルな組み合わせは、究極の AI スーパーコンピューティング プラットフォームの基盤を築きます。

  A100 PCIe 4-GPU 8-GPU 16-GPU
GPUs NVIDIA A100 PCIe 1 基 HGX A100 4-GPU HGX A100 8-GPU HGX A100 8-GPU 2 基
フォーム ファクター PCIe NVIDIA A100 SXM 4 基 NVIDIA A100 SXM 8 基 NVIDIA A100 SXM 16 基
HPC および AI コンピューティング (FP64/TF32*/FP16*/INT8*) 19.5TF/312TF*/624TF*/1.2POPS* 78TF/1.25PF*/2.5PF*/5POPS* 156TF/2.5PF*/5PF*/10POPS* 312TF/5PF*/10PF*/20POPS*
メモリ GPU あたり 40GB または 80GB 最大 320GB 最大 640GB 最大 1,280GB
NVLink 第 3 世代 第 3 世代 第 3 世代 第 3 世代
NVSwitch なし なし 第 2 世代 第 2 世代
NVSwitch GPU 間帯域幅 なし なし 600GB/秒 600GB/秒
合計帯域幅 600GB/秒 2.4TB/秒 4.8TB/秒 9.6TB/秒

NVIDIA ネットワークによる HGX の高速化

HGX では、NVIDIA ネットワーキングを組み込んで、データ転送を高速化およびオフロードし、コンピューティング リソースを最大限に活用することも可能になります。スマート アダプターおよびスイッチにより遅延を低減し、効率性を高め、セキュリティを強化し、データ センターの自動化を簡素化することで、エンドツーエンドのアプリケーション パフォーマンスが高速化します。

データ センターはコンピューティングにおける新しい単位であり、HPC ネットワーキングはデータ センター全体にわたってアプリケーションのパフォーマンスをスケーリングする上で不可欠な役割を果たします。NVIDIA InfiniBand は、ソフトウェア デファインド ネットワーキング、In-Network Computing アクセラレーション、リモート ダイレクトメモリ アクセス (RDMA)、最速のスピードとフィードでそのための道を切り開きます。

HGX-1 and HGX-2 Reference Architectures

Powered by NVIDIA GPUs and NVLINK

NVIDIA HGX-1 and HGX-2 are reference architectures that standardize the design of data centers accelerating AI and HPC. Built with NVIDIA SXM2 V100 boards, with NVIDIA NVLink and NVSwitch interconnect technologies, HGX reference architectures have a modular design that works seamlessly in hyperscale and hybrid data centers to deliver up to 2 petaFLOPS of compute power for a quick, simple path to AI and HPC.

Powered by NVIDIA GPUs and NVLINK

Specifications

8-GPU
HGX-1 
16-GPU
HGX-2 
GPUs 8x NVIDIA V100 16x NVIDIA V100
AI Compute 1 petaFLOPS (FP16) 2 petaFLOPS (FP16)
Memory 256 GB 512 GB
NVLink 2nd generation 2nd generation
NVSwitch N/A Yes
NVSwitch GPU-to-GPU Bandwidth N/A 300 GB/s
Total Aggregate Bandwidth 2.4 TB/s 4.8 TB/s

NVIDIA Ampere アーキテクチャの詳細

こちらの技術詳細では、NVIDIA Ampere アーキテクチャの最新情報と NVIDIA A100 GPU への実装についてご紹介します。