サーバー内およびサーバー間の高度なマルチ GPU 通信の構成要素
AI とハイパフォーマンス コンピューティング (HPC) における計算処理要求が増えたことで (パラメーターが兆単位になるモデルの新たなクラス)、各 GPU 間をシームレスに高速通信し、マルチノード、マルチ GPU システムが求められるようになりました。ビジネスのスピードに合わせた最高にパワフルなエンドツーエンドのコンピューティング プラットフォームを構築するには、高速で拡張性に優れた相互接続が必要です。
第 4 世代の NVIDIA® NVLink® テクノロジは、帯域幅が 1.5 倍になり、マルチ GPU システム構成のために拡張性が向上しています。1 基の NVIDIA H100 Tensor コア GPU で最大 18 本の NVLink 接続がサポートされ、帯域幅の合計は毎秒 900 ギガバイトになります。これは PCIe Gen5 の帯域幅の 7 倍以上です。
NVIDIA DGX™ H100 のようなサーバーでは、このテクノロジを活用し、超高速ディープラーニング トレーニングのスケーラビリティを上げます。
NVLink で GPU 間を接続する NVIDIA H100 PCIe
NVLink で GPU 間を接続する NVIDIA H100
NVIDIA H100 の NVLink は、前世代と比較して GPU 間通信の帯域幅が 1.5 倍になっているため、研究者はより大規模で高度なアプリケーションを使用し、さらに複雑な問題を解くことができます。
第 3 世代の NVIDIA NVSwitch™ は、NVLink の高度な通信機能をベースに構築されており、計算負荷の高いワークロードに対して帯域幅を広くし、待ち時間を短縮します。高速な集団演算を可能にするために、各 NVSwitch には 64 個の NVLink ポートがあり、それに NVIDIA SHARP™ (Scalable Hierarchical Aggregation Reduction Protocol) のエンジンが備わっており、ネットワーク内のデータ送信量を減らし、マルチキャストで高速化します。
NVSwitch により、NVIDIA DGX H100 システムの 8 つの GPU が、全帯域幅で相互接続してクラスターで協力することが可能になりました。
NVLink は GPU 間の直接相互接続であり、サーバー内でマルチ GPU の入出力 (IO) を拡張します。NVSwitch は複数の NVLink を接続し、単一ノード内とノード間で、あらゆる GPU 通信を NVLink フルスピードで提供します。
NVLink と NVSwitch の組み合わせにより、NVIDIA は、初の業界標準の AI ベンチマークである MLPerf 1.1 で最高記録を達成しました。
NVSwitch を使用すると、NVLink 接続をノード間で拡張し、シームレスで高帯域幅のマルチノード GPU クラスターを構築できます。データ センターサイズの GPU が効果的に形成されます。NVSwitch の第 2 層を外部サーバーに追加することで、NVLink ネットワークでは、最大 256 個の GPU を接続し、毎秒 57.6 テラバイトもの All-to-All 帯域幅を提供できます。非常に大きな AI ジョブでも短時間で解決できます。
NVIDIA NVLink Switch は、128 個の NVLink ポートを備え、その非ブロッキング スイッチング容量は 毎秒 57.6 テラバイトもの です。このラック スイッチは、外部の第 4 世代NVLink接続をサポートする NVIDIA DGX および NVIDIA HGX™ システムにおいて、帯域幅を上げ、遅延を減らすように設計されています。
NVSwitch は、1 台のサーバー ノードで完全接続 GPU を 8 ~ 16 基サポートする初のオンノード スイッチ アーキテクチャです。第 3 世代 NVSwitch はあらゆる GPU ペアを驚異的な毎秒 900GB で相互接続します。完全な All-to-All 通信をサポートします。GPU は、最大 15 petaFLOPS のディープラーニング演算能力を備えた 1 台の高性能アクセラレータとして利用できます。
ハードウェア、ネットワーク、ソフトウェア、ライブラリ、最適化された AI モデル、NVIDIA AI Enterprise ソフトウェア スイートならびに NVIDIA NGC™ カタログからのアプリケーションが組み込まれた完全版 NVIDIA データ センター ソリューションにおいて、極めて重要な構成要素が NVLink と NVSwitch です。最もパワフルなエンドツーエンド AI/HPC プラットフォームであり、研究者は現実に成果を出し、ソリューションを運用環境に展開できます。かつてない高速化があらゆる規模で可能となります。
仕様は変更される場合があります
NVIDIA Hopper アーキテクチャと NVIDIA H100 Tensor コア GPU でのその実装を詳しく見ていきましょう。