NVIDIA HGX A100

最もパワフルなエンドツーエンドAI スーパーコンピューティング プラットフォーム

シミュレーション、データ分析、AI の融合に特化した設計

膨大なデータセット、爆発的に増えるモデル サイズ、複雑なシミュレーションには、複数の GPU と極めて速い相互接続が必要になります。NVIDIA HGX™ A100 は、NVIDIA A100 Tensor コア GPU と高速相互接続を組み合わせることで、世界で最もパワフルなサーバーを形成します。A100 80GB GPU により、単一の HGX A100 に最大 1.3 テラバイト (TB) の GPU メモリと毎秒 2TB を超えるメモリ帯域幅が与えられます。前例のない高速化が実現します。徹底的にテストされ導入が簡単なベースボードの HGX A100 は、パートナー企業のサーバーに統合でき、保証付きのパフォーマンスを提供します。

比類のないアクセラレーテッド コンピューティング

第 3 世代 Tensor コアのパワーを活用する HGX A100 は、面倒な設定なしに Tensor Float 32 (TF32) で AI を最大 20 倍、FP64 で HPC を 2.5 倍高速化します。NVIDIA HGX A100 4-GPU は、最も要件の厳しい HPC ワークロードに対して 80 テラフロップスに迫る FP64 演算性能を発揮します。NVIDIA HGX A100 8-GPU は、FP16 ディープラーニング コンピューティングで 5 ペタフロップスを、16 GPU HGX A100 は圧倒的な 10 ペタフロップスを実現します。AI および HPC 向けの世界で最もパワフルなアクセラレーテッド スケールアップ サーバー プラットフォームを形成します。

NVIDIA HGX A100 8-GPU

NVIDIA HGX A100 with 8x A100 GPUs

NVIDIA HGX A100 4-GPU

NVIDIA HGX A100 with 4x A100 GPUs

ディープラーニングのパフォーマンス

機械学習のパフォーマンス

​ビッグ データ分析ベンチマークで、CPU より最大 83 倍、A100 40GB より 2 倍高速

​ビッグ データ分析ベンチマークで、CPU より最大 83 倍、A100 40GB より 2 倍高速

機械学習モデルでは、重要なインサイトを集めるために、極めて大きなデータセットを読み込み、変換し、処理する必要があります。A100 80GB GPU を搭載し、最大 1.3 TB の統合メモリを備え、すべての GPU を NVSwitch で通信させる HGX A100 には、巨大なデータセットを読み込んで演算を行い、実行可能な見識を短時間で導き出すパワーがあります。

A100 80GB はビッグ データ分析ベンチマークで、CPU の 83 倍の速さでインサイトをもたらしました。A100 40GB の 2 倍の高速化でした。データセット サイズが爆発的に増える昨今のワークロードに最適です。

HPC のパフォーマンス

HPC アプリケーションでは、1 秒ごとに膨大な量の計算を処理する必要があります。各サーバー ノードの計算処理密度を上げることで、必要なサーバー数が劇的に減ります。その結果、データ センターの消費電力が大幅に減少し、コストが大きく削減され、占有空間も少なくなります。シミュレーションの高次元行列乗算では、計算のためにプロセッサが多数の隣接プロセッサからデータを取得する必要があります。そこで、NVIDIA NVLink® で GPU を接続することが理想的となります。HPC アプリケーションで A100 の TF32 を活用すれば、単精度の密行列積演算のスループットを 4 年で最大 10 倍に上げることも可能です。

A100 80GB GPU を搭載した HGX A100 は、マテリアル シミュレーションである Quantum Espresso で A100 40GB GPU の 2 倍のスピードアップを実現します。インサイトを得るまでの時間を大幅に短縮します。

​4 年間で 11 倍以上の HPC パフォーマンス

上位 HPC アプリケーション

​4 年間で 11 倍以上の HPC パフォーマンス

​HPC アプリケーションのパフォーマンスが 最大 1.8 倍向上

Quantum Espresso​

​HPC アプリケーションのパフォーマンスが 最大 1.8 倍向上

HGX A100 の仕様

HGX A100 は 4 または 8 個の A100 GPU を搭載したシングル ベースボードで販売されています。GPU が 4 つの構成の場合、NVLink で完全に相互接続されます。8 つの場合、NVSwitch で相互接続されます。NVIDIA HGX™ A100 8- GPU ベースボード 2 つを NVSwitch の相互接続で組み合わせ、パワフルな 16 GPU シングル ノードを作ることもできます。

4-GPU 8-GPU 16-GPU
GPU 4x NVIDIA A100 8x NVIDIA A100 16x NVIDIA A100
HPC と AI コンピューティング FP64/TF32*/FP16*/INT8* 78TF/1.25PF*/2.5PF*/5POPS* 156TF/2.5PF*/5PF*/10POPS* 312TF/5PF*/10PF*/20POPS*
メモリ 最大 320GB 最大 640GB 最大 1,280GB
NVIDIA NVLink 第 3 世代 第 3 世代 第 3 世代
NVIDIA NVSwitch なし 第 2 世代 第 2 世代
NVIDIA NVSwitch GPU 間帯域幅 なし 600 GB/秒 600 GB/秒
合計帯域幅 2.4 TB/秒 4.8 TB/秒 9.6 TB/秒

HGX-1 と HGX-2 の参照アーキテクチャ

NVIDIA GPU と NVLINK のパワー

NVIDIA HGX-1 と HGX-2 は、データ センターの設計を標準化するリファレンス アーキテクチャであり、AI と HPC を高速化します。NVIDIA SXM2 V100 ボード、NVIDIA NVLink と NVSwitch の相互接続テクノロジで作られた HGX リファレンス アーキテクチャはモジュール設計を取り入れており、ハイパースケールかつハイブリッドのデータ センターでシームレスに動作し、最大 2 ペタフロップスの計算処理能力をもたらします。AI や HPC を短期間で簡単に実現します。

NVIDIA GPU と NVLINK のパワー

仕様

8-GPU
HGX-1 
16-GPU
HGX-2 
GPU 8x NVIDIA V100 16x NVIDIA V100
AI コンピューティング 1 petaFLOPS (FP16) 2 petaFLOPS (FP16)
メモリ 256 GB 512 GB
NVLink 第 2 世代 第 2 世代
NVSwitch なし はい
NVSwitch GPU 間帯域幅 なし 300 GB/秒
合計帯域幅 2.4 TB/秒 4.8 TB/秒

NVIDIA Ampere アーキテクチャの詳細

NVIDIA Ampere アーキテクチャの最新情報と NVIDIA A100 GPU への実装については、こちらの技術詳細をご覧ください。