AI、データ分析、HPC アプリケーション のための安全でマルチテナント なベアメタル パフォーマンス。
クラウドネイティブなスーパーコンピューティングは、ハイ パフォーマンス コンピューティングのパワーと、クラウド コンピューティング サービスのセキュリティや使いやすさを融合しています。NVIDIA クラウドネイティブ スーパーコンピューティング プラットフォームは、NVIDIA ® BlueField® データ処理ユニット (DPU) のアーキテクチャと高速で低遅延の NVIDIA Quantum InfiniBand ネットワーキングを活用し、ベアメタルのパフォーマンス、ユーザー管理と分離、データ保護、オンデマンドのハイ パフォーマンス コンピューティング (HPC)、AI サービスを簡単かつ安全に提供します。
最大のパフォーマンスを実現するために、スーパーコンピューターはマルチテナント セキュリティを提供する必要があります。これはクラウドネイティブなプラットフォームを通じて理想的に実現されます。このアーキテクチャの移行を可能にする重要な要素は DPU です。
完全統合されたオンチップ型データ センター プラットフォームとして、DPU はホスト プロセッサの代わりにデータ センター インフラストラクチャのオフロードと管理を行い、スーパーコンピューターのセキュリティとオーケストレーションを可能にします。
NVIDIA Quantum InfiniBand スイッチ と組み合わせることで、このアーキテクチャは最適なベアメタル パフォーマンスを提供し、マルチノード テナント分離をネイティブでサポートします。
クラウドネイティブのスーパーコンピューティング システムは、マルチテナント環境で最大のパフォーマンス、セキュリティ、オーケストレーションを実現するように設計されています。
BlueField DPU は、信頼されていないマルチノード テナントをホストすることができる一方で、スーパーコンピューティング リソースが以前の残骸を残すことなく、新しいテナントにクリーンに引き渡されることを保証します。これを実現するために、 BlueField DPU は新たにスケジュールされたテナントにクリーンなブートイメージを提供し、完全なクリーンアップと信頼性の再確立を行い、ストレージを仮想化し、承認されたストレージエリアへのアクセスを許可します。
HPC と AI の通信フレームワークとライブラリはレイテンシと帯域幅に敏感で、アプリケーションのパフォーマンスを決定する上で重要な役割を果たします。
ホスト CPU または GPU から Bluefield DPU にライブラリをオフロードすることで、通信と計算の同時実行のための最高レベルのオーバーラップを実現します。また、オペレーティング システムのジッターによる悪影響を低減し、アプリケーションのパフォーマンスを劇的に向上させます。これは次世代のスーパーコンピューター アーキテクチャを実現するための鍵です。
オハイオ州立大学の初期の研究結果から、クラウドネイティブのスーパーコンピューターは従来のスーパーコンピューターの 1.3 倍の速度で HPC ジョブを実行できることがわかっています。
1パフォーマンス テストは、HPC-AI Advisory Council のクラスター センターで行われました。システム構成として、ノードごとにデュアルソケット Intel Xeon 16 コア CPU E5-2697A V4 @ 2.60GHz (ノードごとに合計 32 個のプロセッサ)、256GB DDR4 2400MHz RDIMM メモリ、1TB 7.2K の RPM SATA 2.5" ハード ドライブを搭載した 32 台のサーバーを使用しました。サーバーは NVIDIA BlueField-2 InfiniBand HDR100 DPU と NVIDIA Quantum QM7800 40 ポート HDR 200Gb/s InfiniBand スイッチで接続しました。
NVIDIA Quantum-2 InfiniBand プラットフォームで、革新的かつプロアクティブな監視と輻輳管理が可能になるため、トラフィックの分離が実現し、パフォーマンス ジッターがほぼ排除され、アプリケーションが専用システムで実行されているかのような予測パフォーマンスが得られます。
NVIDIA BlueField DPU 業界をリードする NVIDIA ConnectX® ネットワーク アダプター、複数の Arm コアと PCIe サブシステム、専用 HPC ハードウェア高速化エンジンを組み合わせ、データ センターのオンチップ型インフラストラクチャのプログラミングを完全に実現します。
NVIDIA Quantum InfiniBand ネットワーキングでは、データ転送の高速化とオフロードを行って、データ不足や帯域不足に起因するコンピューティング リソースの欠乏を確実に回避することができます。InfiniBand ネットワークは異なるユーザーまたはテナント間で分割でき、セキュリティと QoS を保証します。
NVIDIA DOCA SDK により、インフラストラクチャ開発者は業界標準の API を活用して NVIDIA BlueField DPU 上でネットワーク、ストレージ、セキュリティ、管理、AI および HPC のアプリケーションとサービスを迅速に作成できます。DOCA があれば、開発者は高性能で、ソフトウェア デファインドの、クラウドネイティブな DPU 対応サービスを開発し、未来のスーパーコンピューティング インフラストラクチャをプログラムできます。
NVIDIA MAGNUM IO™ ソフトウェア開発キットを利用することにより、開発者はアプリケーションの入出力 (IO) を最適化し、ワークフローのエンドツーエンド時間を短縮できます。
Magnum IO は、ストレージ、ネットワーク、マルチ GPU、マルチノード通信など、IO のあらゆる側面をカバーします。また、アプリケーションをプロファイリングおよび最適化し、IO のボトルネックを解消するツールも含まれています。