最もパワフルなエンドツーエンドの AI スーパーコンピューティング プラットフォーム。
大規模なデータセット、急激に増大するモデル サイズ、複雑なシミュレーションには、非常に高速な相互接続と完全に高速化されたソフトウェア スタックを備えた複数の GPU が必要になります。NVIDIA HGX™ AI スーパーコンピューティング プラットフォームは、NVIDIA GPU、NVIDIA® NVLink®、NVIDIA InfiniBand ネットワーク、および NVIDIA NGC™ カタログから完全に最適化された NVIDIA AI および HPC ソフトウェア スタックのフルパワーを結集し、最高のアプリケーション パフォーマンスを実現します。NVIDIA HGX は、エンドツーエンドのパフォーマンスと柔軟性を備えており、研究者と科学者はシミュレーション、データ分析、AI を組み合わせて科学の発展にさらに貢献できるようになります。
NVIDIA HGX は、 NVIDIA A100 Tensor コア GPU と高速相互接続を組み合わせることで、世界で最もパワフルなサーバーを形成します。HGX には 16 基の A100 GPU が搭載され、最大 1.3 テラバイト (TB) の GPU メモリと、2 テラバイト/秒 (TB/s) を超えるメモリ帯域幅を備えており、前例のない高速化が実現します。
HGX は、前世代と比較して、Tensor Float 32 (TF32) では AI の速度がこれまでの常識を打ち破る最大 20 倍に、FP64 では HPC の速度が 2.5 倍にもなります。NVIDIA HGX は 10 ペタフロップスという圧倒的な性能を発揮し、AI および HPC 向けの世界で最もパワフルなアクセラレーテッド スケールアップ サーバー プラットフォームを形成します。
徹底的にテストされ簡単に導入ができる HGX は、パートナー企業のサーバーに統合でき、保証付きのパフォーマンスを提供します。HGX プラットフォームは、SXM GPU を搭載した 4 GPU と 8 GPU どちらの HGX ベースボードとしても利用可能です。また、PCIe GPU としても利用可能で、主要なサーバーに最高の演算性能をもたらすモジュール式デプロイも選択できます。
DLRM トレーニング
DLRM on HugeCTR フレームワーク、精度 = FP16 | NVIDIA A100 80GB バッチ サイズ = 48 | NVIDIA A100 40GB バッチ サイズ = 32 |. NVIDIA V100 32GB バッチ サイズ = 32。
ディープラーニング モデルは爆発的にサイズと複雑さを増しています。スケーラビリティのために、大容量のメモリ、大規模な演算処理能力、高速の相互接続を備えたシステムが必要になります。NVIDIA NVSwitch™ がすべての GPU 間での高速通信を可能にするため、HGX は最先端の AI モデルを処理できます。A100 80GB GPU では、GPU メモリが 2 倍になり、単一の HGX で最大 1.3TB のメモリを実現します。膨大なデータ テーブルを持つディープラーニング レコメンデーション モデル (DLRM) などの超大規模なモデルにおける昨今のワークロードが、A100 40GB GPU 搭載の HGX に比べ最大 3 倍に高速化されます。
ビッグ データ分析のベンチマーク | 10TB データセット上での 30 の分析リテール クエリ、ETL、ML、NLP | V100 32GB、RAPIDS/Dask | A100 40GB および A100 80GB、RAPIDS/Dask/BlazingSQL
機械学習モデルでは、重要なインサイトを集めるために、極めて大きなデータセットを読み込み、変換し、処理する必要があります。A100 80GB GPU 搭載の HGX は、最大 1.3TB の統合メモリと、NVSwitch とすべての GPU が通信することにより、膨大なデータセットをロードして計算を実行し、実用的なインサイトを素早く導き出すことができます。
ビッグ データ分析のベンチマークでは、A100 80GB は A100 40GB の 2 倍のスループットでインサイトをもたらしました。データセット サイズが爆発的に増加する昨今のワークロードに最適です。
HPC アプリケーションでは、1 秒ごとに膨大な量の計算を処理する必要があります。各サーバー ノードの計算処理密度を上げることで、必要なサーバー数が劇的に減ります。その結果、データ センターの消費電力、コスト、占有スペースを大幅に削減することができます。シミュレーションの高次元行列乗算では、計算のためにプロセッサが多数の隣接プロセッサからデータを取得する必要があります。そこで、NVIDIA NVLink で GPU を接続することが理想的となります。HPC アプリケーションで A100 の TF32 を活用すれば、単精度の密行列積演算のスループットを 4 年で最大 11 倍に上げることも可能です。
A100 80GB GPU を搭載した HGX は、マテリアル シミュレーションである Quantum Espresso で A100 40GB GPU の 2 倍のスループットを実現します。インサイトを得るまでの時間を大幅に短縮します。
トップ HPC アプリ
アプリケーション スピードアップの幾何学手法と P100 の比較: ベンチマーク アプリケーション: Amber [PME-Cellulose_NVE]、Chroma [szscl21_24_128]、GROMACS [ADH Dodec]、MILC [Apex Medium]、NAMD [stmv_nve_cuda]、PyTorch (BERT Large Fine Tuner]、Quantum Espresso [AUSURF112-jR]、Random Forest FP32 [make_blobs (160000 x 64: 10)]、TensorFlow [ResNet-50]、VASP 6 [Si Huge] | GPU ノード (デュアルソケット CPU、4x NVIDIA P100、V100、または A100 GPU)。
Quantum Espresso
Quantum Espresso (CNT10POR8 データセットにより測定)、精度 = FP64.
NVIDIA HGX は、H100 GPU (80 GB の GPU メモリを搭載)、もしくは A100 GPU (それぞれ 40 GB または 80 GB の GPU メモリを搭載) を 4 基または 8 基搭載した単一ベースボードで利用可能です。4-GPU 構成は NVIDIA NVLink と完全に相互接続されており、8-GPU 構成は NVIDIA NVSwitch と相互接続されています。2 つの HGX A100 8-GPU ベースボードを NVSwitch の相互接続で組み合わせ、パワフルな 16-GPU シングル ノードを作ることもできます。
HGX は、モジュール式で簡単に導入できる PCIe フォーム ファクターでも利用でき、標準サーバーに最高のコンピューティング パフォーマンスをもたらします。
ハードウェアとソフトウェアのこのパワフルな組み合わせは、究極の AI スーパーコンピューティング プラットフォームの基盤を築きます。
HGX では、NVIDIA ネットワーキングを組み込んで、データ転送を高速化およびオフロードし、コンピューティング リソースを最大限に活用することも可能になります。スマート アダプターおよびスイッチにより遅延を低減し、効率性を高め、セキュリティを強化し、データ センターの自動化を簡素化することで、エンドツーエンドのアプリケーション パフォーマンスが高速化します。
データ センターはコンピューティングにおける新しい単位であり、HPC ネットワーキングはデータ センター全体にわたってアプリケーションのパフォーマンスをスケーリングする上で不可欠な役割を果たします。NVIDIA InfiniBand は、ソフトウェア デファインド ネットワーキング、In-Network Computing アクセラレーション、リモート ダイレクトメモリ アクセス (RDMA)、最速のスピードとフィードでそのための道を切り開きます。
NVIDIA HGX-1 and HGX-2 are reference architectures that standardize the design of data centers accelerating AI and HPC. Built with NVIDIA SXM2 V100 boards, with NVIDIA NVLink and NVSwitch interconnect technologies, HGX reference architectures have a modular design that works seamlessly in hyperscale and hybrid data centers to deliver up to 2 petaFLOPS of compute power for a quick, simple path to AI and HPC.