GPU 対応の最新データ センターのための IO サブシステム
コンピューティングの新しい単位はデータ センターです。その中核にあるのが NVIDIA GPU と NVIDIA ネットワークです。アクセラレーテッド コンピューティングでは、パフォーマンス最大化のため、高速化された入力 / 出力 (IO) が要求されます。最新データ センターの IO サブシステム、NVIDIA® Magnum IO™ は、並列、非同期、インテリジェントなデータ センター IO 向けのアーキテクチャで、マルチ GPU やマルチノード高速化のためのストレージとネットワーク IO のパフォーマンスを最大化します。
Magnum IO はデータ センター向けの IO サブシステムであり、マルチテナント データ センターをサポートする IO と通信を高速化するための新しい拡張機能を導入するものです。この拡張アーキテクチャが Magnum IO for Cloud-Native Supercomputing と呼ばれています。
Magnum IO GPUDirect over an InfiniBand ネットワークでは、Verizon の革新的な分散型ボリュメトリック ビデオ アーキテクチャが可能になります。全米のスポーツ センターと Verizon の施設に配置されている Multi-Access Edge Computing (MEC) センターに同社のテクノロジを導入することで、メディアに 3D 体験をもたらし、ゲームに参加するための新しい選択肢を提供することができます。
CPU を迂回することで、GPU メモリ、ネットワーク、ストレージ間の直接 IO を可能にし、10 倍の高帯域幅を実現します。
CPU の競合を軽減し、ピーク時の IO 帯域幅を提供するバランスに優れた GPU 対応システムを構築して、最大で CPU コア数を 10 分の 1 に、CPU 使用率を 30 分の 1 に抑えます。
現在および将来のプラットフォームのために、レイテンシの影響が大きい細粒度データ転送、帯域幅が重要になるブロックサイズの大きなデータ転送、集合通信など、どの場合にも最適化した実装を提供します。
Magnum IO は、ストレージ IO、ネットワーク IO、ネットワーク内コンピューティング、IO 管理を活用し、マルチ GPU、マルチノード システムのデータ移動、アクセス、管理の簡素化と高速化を行います。Magnum IO は NVIDIA CUDA-X™ライブラリをサポートし、NVIDIA GPU と NVIDIA ネットワークのハードウェア トポロジを幅広く最大限に活用することで、最適なスループットと低レイテンシを実現します。
[開発者ブログ] Magnum IO - 最新のデータ センターで IO を加速する
マルチノード、マルチ GPU のシステム、低速な CPU の環境では、シングル スレッドのパフォーマンスがローカルまたはリモートのストレージ デバイスからのデータ アクセスに重大な影響を及ぼします。ストレージ IO を高速化することで、GPU は CPU とシステム メモリを迂回して、毎秒 200 ギガビットの NIC 8 基経由でリモート ストレージにアクセスし、最大で毎秒 1.6 テラビットの生ストレージ帯域幅を実現します。
採用テクノロジ:
NVIDIA NVLink® の構造と RDMA ベースのネットワーク IO 高速化により、CPU を迂回して GPU から GPU への直接データ転送をライン レートで可能にしながら、IO のオーバーヘッドを削減します。
ネットワーク内コンピューティングは、エンドポイントへのトラバースや途中のホップにより生じるレイテンシを排除しながら、ネットワーク内で処理を行います。データ処理ユニット (DPU) は、事前構成済みのデータ処理エンジンやプログラマブル エンジンなどを含むソフトウェア定義のネットワーク ハードウェア アクセラレーテッド コンピューティングを導入します。
コンピューティング、ネットワーク、ストレージ全体で IO の最適化を行うためには、ユーザーは高度なテレメトリと幅広いトラブルシューティング手法を必要とします。Magnum IO 管理プラットフォームを使用することで、研究および産業用データ センターのオペレーターは、最新データ センター構造のプロビジョニング、モニタリング、管理、予防的メンテナンスを強化することができます。
Magnum IO インターフェイスは、NVIDIA CUDA-X HPC (ハイ パフォーマンス コンピューティング) および人工知能 (AI) ライブラリとの組み合わせで、AI から科学分野のビジュアライゼーションまで、幅広いユースケースの IO を高速化します。
現在、データ サイエンスと機械学習 (ML) は、世界最大級のコンピューティング セグメントとなっています。予測型 ML モデルの精度をわずかに改良することで、最終的に数十億ドル利益につながることがあります。精度向上のため、RAPIDS アクセラレーター ライブラリには高速化された UCX ベースの Apache Spark Shuffle が組み込まれており、GPU から GPU への通信や RDMA の機能を活用する設定が可能です。NVIDIA ネットワーキング、Magnum IO ソフトウェア、GPU 対応 Spark 3.0、NVIDIA RAPIDS™ と組み合わせることで、NVIDIA データ センター プラットフォームは、これらの大量のワークロードをかつてないレベルのパフォーマンスと効率性による独自のスタイルで高速化します。
Adobe が Databricks 上で Spark 3.0 によるモデル トレーニングを 7 倍高速化し、コストを 90% 削減
次世代の発見のために、サイエンティストたちはシミュレーションを利用して、創薬のための複雑な分子の理解を深めたり、物理学から新しいエネルギー源を探ったり、大気データから異常気象パターンを今までより高い精度で予測したりしています。Magnum IO は RDMA、GPUDirect、NVIDIA SHARP などのハードウェアレベルの高速化とスマート オフロードを可能にし、同時に NVIDIA Quantum 2 InfiniBand ネットワーキングの毎秒 400Gb の高帯域幅/超低遅延を強化します。
マルチテナンシなら、隣接するアプリケーション トラフィックから見境ない干渉があってもユーザー アプリケーションではそれを認識せずに済むことがあります。最新の NVIDIA Quantum 2 InfiniBand プラットフォームの Magnum IO では、ユーザーのパフォーマンスに与える悪影響を軽減するための機能が改善されており、また、新しい機能を備えています。それにより最適な成果が得られ、ハイパフォーマンス コンピューティング (HPC) と機械学習の展開があらゆる規模で非常に効率的になります。
ボリューム最大級のインタラクティブ ビジュアライゼーション - 150 TB の NASA 火星探査シミュレーション
対話型 AI やディープ レコメンダー システムなど、次のレベルの課題に挑む AI モデルは爆発的に複雑化し続けています。NVIDIA の Megatron-BERT のような対話型 AI モデルは、ResNet-50 などの画像分類モデルと比較すると 3,000 倍ものコンピューティング性能を必要とします。研究者が AI にできることの限界を追求し続けるためには、パワフルなパフォーマンスと大規模のスケーラビリティが必要です。HDR 200Gb/s の InfiniBand ネットワーキングと Magnum IO ソフトウェア スタックの組み合わせは、1 つのクラスター内の数千基におよぶ GPU に効率的なスケーラビリティを提供します。
Facebook データセンターのディープラーニング トレーニング: スケールアップとスケールアウト システムのデザイン
登録してニュースと最新情報を受け取る。
GPU メモリへの直接 IO 転送を容易にし、CPU やシステム メモリ往復による高コストなデータパスのボトルネックを排除します。システム メモリに余分な複製を作ることによるレイテンシ オーバーヘッドを回避し、転送量を削減して、独立稼働を促進することで CPU 使用で発生するボトルネックを緩和します。
詳細を見る ›
ブログを読む: GPUDirect Storage: ストレージと GPU メモリ間の直接的なパス
ウェビナーを見る: NVIDIA GPUDirect Storage: GPU へのデータ パスを高速化する
NVMe over Fabrics (NVMe-oF) などのネットワーク ストレージを論理的にローカルの NVMe ドライブとして提示し、ホスト OS やハイパーバイザーが、リモート ネットワーキング ストレージのプロトコルの代わりに標準の NVMe ドライバーを使用できるようにします。
ユーザー空間での高速パケット処理のためのライブラリと最適化された NIC ドライバーのセットにより、高速ネットワーキング アプリケーションのフレームワークと一般的な API を提供します。
ネットワーク アダプタが、ピア デバイスでメモリのデータ バッファを読み書きするためのアクセスを提供します。RDMA ベースのアプリケーションが、ホストのメモリでデータを複製することなく、ピア デバイスでコンピューティング能力を使用できるようにします。
データ中心の高パフォーマンス アプリケーションのための、本番環境で使用可能なオープン ソース フレームワークです。基盤となるハードウェアがサポートする基礎的なネットワーク運用を行う低レベルのインターフェイスが含まれます。パッケージには、MPI および SHMEM ライブラリ、Unified Communication X (UCX)、NVIDIA SHARP、KNEM、標準 MPI ベンチマークが含まれます。
通信プロセッサ間の同期を緊密に行うことで、トポロジに対応した通信プリミティブを提供します。
OpenSHMEM 規格に基づくパラレル プログラミング インターフェイスを提供し、複数サーバーの複数 GPU メモリ全体のデータにグローバル アドレス空間を作成します。
ブログを読む: NCCL を使用した NVHMEM 2.0 チームベース コレクティブの高速化
データ中心の高パフォーマンス アプリケーションのための、本番環境で使用可能なオープン ソース フレームワークです。基盤となるハードウェアがサポートする基礎的なネットワーク運用を行う低レベルのインターフェイスが含まれます。MPI、OpenSHMEM、PGAS、Spark、その他の高パフォーマンスのディープラーニング アプリケーションで使用されるプロトコル構築のための高レベル インターフェイスも含まれます。
スイッチとパケット処理を高速化する機能のセット。ASAP22 は、データ ステアリングとセキュリティを CPU からネットワークにオフロードし、効率を高め、制御を追加し、悪意のあるアプリケーションから隔離します。
NVIDIA® BlueField® DPU は、CPU の行うネットワーク、セキュリティ、ストレージに関する重要なタスクを代行し、最新のデータセンターにおけるパフォーマンス、ネットワーク効率、サイバー セキュリティの問題への対処に最適なソリューションとして機能します。
MPI の通信時間が短縮され、コンピューティングと通信のオーバーラップによる通信遅延の隠蔽に寄与します。これは NVIDIA Mellanox InfiniBand アダプターで採用されており、ホスト マシンからネットワーク カードへの MPI メッセージ処理を代行して、MPI メッセージの複製を不要にします。
MPI、SHMEM、NCCL などで行われるデータ削減および集計アルゴリズムのパフォーマンスを改善し、このアルゴリズムを GPU や CPU からネットワークのスイッチング要素にオフロードするため、エンドポイント間でデータを何度も送信する必要がなくなります。SHARP の統合により、NCCL のパフォーマンスは 4 倍に、MPI 集合レイテンシのパフォーマンスは 7 倍に向上します。
ネットワークのオーケストレーション、プロビジョニング、設定管理、タスク管理の他、構造の健全性、トラフィックの使用状況、Ethernet ソリューション管理の詳細なビジュアライゼーションを可能にします。
InfiniBand のデータセンターにおける構造のデバッグ、モニタリング、管理、効率的なプロビジョニングを提供します。AI を活用したサイバー インテリジェンスと分析による、リアルタイムのネットワーク テレメトリをサポートします。