より速くスケーラブルな相互接続に対するニーズ

AI とハイパフォーマンス コンピューティング (HPC) における計算処理要求が増えたことで (パラメーターが兆単位になるモデルの新たなクラス)、各 GPU 間をシームレスに高速通信し、マルチノード、マルチ GPU システムが求められるようになりました。ビジネスのスピードに合わせた最高にパワフルなエンドツーエンドのコンピューティング プラットフォームを構築するには、高速で拡張性に優れた相互接続が必要です。

NVIDIA A100 PCIe with NVLink GPU-to-GPU connection
NVIDIA A100 with NVLink GPU-to-GPU connections

NVLink パフォーマンス

NVLink Performance

NVIDIA NVSwitch で GPU を完全接続

第 3 世代の NVIDIA NVSwitch は、NVLink の高度な通信機能をベースに構築されており、計算負荷の高いワークロードに対して帯域幅を広くし、待ち時間を短縮します。高速な集団演算を可能にするために、各 NVSwitch には 64 個の NVLink ポートがあり、それに NVIDIA SHARP (Scalable Hierarchical Aggregation Reduction Protocol) のエンジンが備わっており、ネットワーク内のデータ送信量を減らし、マルチキャストで高速化します。

Fully Connect GPUs with NVIDIA NVSwitch
NVLink and NVSwitch Work Together

NVLink と NVSwitch が連動する仕組み

NVLink は GPU 間の直接相互接続であり、サーバー内でマルチ GPU の入出力 (IO) を拡張します。NVSwitch は複数の NVLink を接続し、単一ノード内とノード間で、あらゆる GPU 通信を NVLink フルスピードで提供します。    

NVLink と NVSwitch の組み合わせにより、NVIDIA は、初の業界標準の AI ベンチマークである MLPerf 1.1 で最高記録を達成しました。

数兆ものパラメーター モデルをトレーニングするための拡張

NVSwitch を使用すると、NVLink 接続をノード間で拡張し、シームレスで高帯域幅のマルチノード GPU クラスターを構築できます。データ センターサイズの GPU が効果的に形成されます。NVSwitch の第 2 層を外部サーバーに追加することで、NVLink ネットワークでは、最大 256 個の GPU を接続し、毎秒 57.6 テラバイトもの All-to-All 帯域幅を提供できます。非常に大きな AI ジョブでも短時間で解決できます。

Scale-Up to Train Trillion Parameter Models
NVIDIA NVLink Switch

NVIDIA NVLink Switch

NVIDIA NVLink Switch は、128 個の NVLink ポートを備え、その非ブロッキング スイッチング容量は 毎秒 57.6 テラバイトもの です。このラック スイッチは、外部の第 4 世代NVLink接続をサポートする NVIDIA DGX および NVIDIA HGX システムにおいて、帯域幅を上げ、遅延を減らすように設計されています。

エンタープライズからエクサスケールにスケーリング

完全接続で比類のないパフォーマンス

NVSwitch は、1 台のサーバー ノードで完全接続 GPU を 8 ~ 16 基サポートする初のオンノード スイッチ アーキテクチャです。第 3 世代 NVSwitch はあらゆる GPU ペアを驚異的な毎秒 900GB で相互接続します。完全な All-to-All 通信をサポートします。GPU は、最大 15 petaFLOPS のディープラーニング演算能力を備えた 1 台の高性能アクセラレータとして利用できます。

非常にパワフルな AI/HPC プラットフォーム

ハードウェア、ネットワーク、ソフトウェア、ライブラリ、最適化された AI モデル、NVIDIA AI Enterprise ソフトウェア スイートならびに NVIDIA NGC カタログからのアプリケーションが組み込まれた完全版 NVIDIA データ センター ソリューションにおいて、極めて重要な構成要素が NVLink と NVSwitch です。最もパワフルなエンドツーエンド AI/HPC プラットフォームであり、研究者は現実に成果を出し、ソリューションを運用環境に展開できます。かつてない高速化があらゆる規模で可能となります。

仕様

  • NVLink

    NVLink

  • NVSwitch

    NVSwitch

  • サーバー間の NVLink と NVSwitch

    サーバー間の NVLink と NVSwitch

  第 2 世代 第 3 世代 第 4 世代
合計 NVLink 帯域幅 300GB/秒 600GB/秒 900GB/秒
GPU あたりの最大リンク数 6 12 18
サポートされている NVIDIA アーキテクチャ NVIDIA Volta アーキテクチャ NVIDIA Ampere アーキテクチャ NVIDIA Hopper アーキテクチャ
  第 1 世代 第 2 世代 第 3 世代
直接接続による GPU 数/ノード 最大 8 最大 8 最大 8
NVSwitch GPU 間帯域幅 300GB/秒 600GB/秒 900GB/秒
合計帯域幅 2.4TB/秒 4.8TB/秒 7.2TB/秒
サポートされている NVIDIA アーキテクチャ NVIDIA Volta アーキテクチャ NVIDIA Ampere アーキテクチャ NVIDIA Hopper アーキテクチャ
  サーバー間の NVLink と NVSwitch
直接接続による GPU 数 最大 256
NVSwitch GPU 間帯域幅 900GB/秒
合計帯域幅 57.6TB/秒
ネットワーク内のデータ送信量削減 NVSwitch での SHARP によるデータ送信量削減
主要なソフトウェア サポート CUDA®, CUDA-X, Magnum IO
サポートされている NVIDIA アーキテクチャ NVIDIA Hopper アーキテクチャ

NVIDIA Hopper アーキテクチャの内部。

NVIDIA Hopper アーキテクチャと NVIDIA H100 Tensor コア GPU でのその実装を詳しく見ていきましょう。