データセンター向け AI ストレージ エコシステム
AI の新たなフロンティアに向けた推論ストレージの再構築
概要
NVIDIA® CMX™ コンテキスト メモリ ストレージは、長コンテキスト、マルチターン、エージェント型 AI 推論向けの AI ネイティブ コンテキスト層です。 NVIDIA BlueField®‑4 ストレージ プロセッサを搭載し、一時的なキーバリュー (KV) キャッシュ向けに最適化された共有ポッドレベルのコンテキスト層により、GPU メモリを拡張します。このプラットフォームは、大規模な推論ワークロードにおいて遅延、コスト、電力オーバーヘッドを削減する高帯域幅パスを提供し、NVIDIA Rubin プラットフォームでスループットと電力効率の向上を実現するのに役立ちます。
製品
高速化されたコンテキスト メモリと安全なデータ移動からイーサネット ファブリックや推論フレームワークに至るまで、NVIDIA CMX は、コンピューティング、ネットワーク、ストレージ、ソフトウェア全体にわたる徹底的な共同設計の成果です。
製品の利点
NVIDIA CMX は、従来のストレージ アプローチと比較して、KV キャッシュを大量に消費する長コンテキスト型ワークロードにおいて、持続的なスループットと電力効率を向上させる専用のコンテキスト層を導入しています。
非常に効率的な KV キャッシュ最適化ストレージ層により AI サービスを拡張。これにより重要な電力を回収し、従来のストレージではなく GPU にデータ センターの電力予算の多くを割り当てることができます。
再計算ではなく、CMX 階層から計算済みの KV キャッシュを再利用することで、データ パスを最適化し、ストールを削減できます。これにより、マルチターンのエージェント型推論において、1 秒当たりのトークン数とスループットが向上します。CMX は、最初のトークン生成までの時間と最後のトークン生成までの時間を短縮します。そのため、モデル、コンテキスト ウィンドウ、並列処理が増加しても、応答のストリーミングがより早く開始され、より迅速に完了できます。
AI ネイティブのコンテキストへの高速なポッド幅アクセスを提供することで、マルチターン型エージェントは、ワークロードの増加に応じて協調、状態の共有、シームレスな拡張ができるほか、ノード間で KV キャッシュの重複や余剰の容量を削減できます。
大規模な KV キャッシュ容量を提供し、多くの同時ユーザー向けに、長コンテキスト推論、マルチエージェント ワークフロー、兆単位のパラメーター規模のモデル、より長いコンテキスト ウィンドウをサポートします。
NVIDIA STX は、主要なストレージ パートナーと共同設計され、NVIDIA のアクセラレーテッド コンピューティング、ネットワーク、AI ソフトウェアを基盤に構築された、AI ストレージ向けのモジュール式リファレンス アーキテクチャです。NVIDIA STX は、トレーニングや分析からリアルタイムのエージェント型推論まで、AI ライフサイクル全体を高速化する汎用データ エンジンの構築基盤を提供します。
エコシステム
関連情報
NVIDIA エンタープライズ セールス チームまたは NVIDIA パートナー ネットワーク (NPN) プログラムの適切なパートナーと連携し、導入を始めましょう。
ビジネス ニーズについて、NVIDIA のスペシャリストに相談しましょう。
登録すると、NVIDIA から最新ニュース、最新情報などをお届けします。