データセンター向け AI ストレージエコシステム

NVIDIA CMX コンテキストメモリストレージプラットフォーム

AI の新たなフロンティアに向けた推論ストレージの再構築

概要
製品
利点
エコシステム
関連情報
今すぐ始める

概要
製品
利点
エコシステム
関連情報
今すぐ始める

AI ネイティブストレージが長コンテキストの大規模推論を高速化

NVIDIA® CMX™ コンテキストメモリストレージは、長コンテキスト、マルチターン、エージェント型 AI 推論向けの AI ネイティブコンテキスト層です。 NVIDIA BlueField®‑4 ストレージプロセッサを搭載し、一時的なキーバリュー (KV) キャッシュ向けに最適化された共有ポッドレベルのコンテキスト層により、GPU メモリを拡張します。このプラットフォームは、大規模な推論ワークロードにおいて遅延、コスト、電力オーバーヘッドを削減する高帯域幅パスを提供し、NVIDIA Rubin プラットフォームでスループットと電力効率の向上を実現するのに役立ちます。

NVIDIA BlueField-4 が、AI の新たなフロンティアを実現する、新しいクラスの AI ネイティブストレージを強化

NVIDIA CMX は、GPU 容量を拡張し、ラックスケールの AI システム全体で高帯域幅の KV キャッシュの共有を可能にします。従来のストレージよりも、長コンテキスト、マルチターン推論において、高いスループットと優れた電力効率を実現します。

プレスリリースを読む

AI の新たなフロンティアを実現する NVIDIA BlueField-4 搭載コンテキストメモリストレージプラットフォームの紹介

NVIDIA CMX は、NVIDIA BlueField‑4、DOCA™、Spectrum‑X™ Ethernet を活用して、ポッドレベルのコンテキストメモリ層を追加し、長コンテキストのエージェント型 AI の推論において高いスループットと電力効率を実現します。

ブログを読む

製品

エンドツーエンドで統合された AI ネイティブストレージインフラ

高速化されたコンテキストメモリと安全なデータ移動からイーサネットファブリックや推論フレームワークに至るまで、NVIDIA CMX は、コンピューティング、ネットワーク、ストレージ、ソフトウェア全体にわたる徹底的な共同設計の成果です。

NVIDIA BlueField-4

NVIDIA BlueField プラットフォームは、画期的なパフォーマンス、効率性、イノベーションを提供することで、NVIDIA CMX を高速化します。BlueField-4 は、Non-Volatile Memory Express (NVMe) ソリッドステートドライブ (SSD) の管理、ストレージサービスの実行、そして高い電力効率で、KV キャッシュのデータ整合性と暗号化をオフロードします。その高度なコンピューティング性能と、ネットワーク、ストレージ、セキュリティ向けのソフトウェアデファインドのハードウェアアクセラレーターにより、あらゆるワークロードに対応する安全でエネルギー効率に優れたインフラが構築されます。

NVIDIA BlueField でデータセンターを変える

NVIDIA DOCA Memos

NVIDIA DOCA Memos は、BlueField-4 および CMX に最適化された SDK であり、AI コンピューティングノードと CMX データノード全体で KV キャッシュを管理および共有し、シンプルなキーバリュー API を提供し、イーサネット接続されたフラッシュをポッドレベルのキャッシュ層に変えます。ハードウェアアクセラレーションを通じた整合性と暗号化により、安全で低遅延なアクセスを実現するため、アプリケーションはステートレスな状態を維持しつつ、CMX が KV キャッシュのルーティングと大規模な再利用を処理します。

DOCA Memos を使用した AI 推論の高速化

NVIDIA Spectrum-X イーサネットネットワーキング

NVIDIA Spectrum-X Ethernet は、ポッド全体で AI ネイティブ KV キャッシュへの低遅延、高帯域幅でのアクセスを実現する、高性能なリモートダイレクトメモリアクセス (RDMA) ファブリックを提供します。AI 用に設計された Spectrum-X Ethernet は、高度な輻塞制御、適応型ルーティング、ロスレス RDMA Over Converged Ethernet (RoCE) を活用し、ジッターとテール遅延を最小限に抑え、大規模なマルチテナント環境においても、一貫性のある再現性の高いパフォーマンスを提供します。これにより、CMX は予測可能な高いパフォーマンスでスケーリングできるため、マルチターンのエージェント型推論ワークロードにおいて、スループットと応答性を最大化できます。

Spectrum-X Ethernet による AI ネットワークの拡張

NVIDIA Dynamo

NVIDIA Dynamo は、CMX と基盤となるコンテキストストレージ層をポッド全体でシームレスに機能させる分散推論サービングフレームワークです。リクエストを KV キャッシュがすでに存在する場所にルーティングします。サービング層における KV 対応の配置と再利用を処理することで、Dynamo は 1 秒当たりのトークン数を増加させ、最初のトークン取得までの時間を短縮するとともに、マルチターンやマルチエージェントのワークロードにおいて、ポッド全体のコンテキスト再利用を可能にします。

NVIDIA Dynamo により AI 推論を高速化

製品の利点

長コンテキスト AI 向けに高速化されたコンテキストメモリ

NVIDIA CMX は、従来のストレージアプローチと比較して、KV キャッシュを大量に消費する長コンテキスト型ワークロードにおいて、持続的なスループットと電力効率を向上させる専用のコンテキスト層を導入しています。

ギガスケール AI の電力を回収

非常に効率的な KV キャッシュ最適化ストレージ層により AI サービスを拡張。これにより重要な電力を回収し、従来のストレージではなく GPU にデータセンターの電力予算の多くを割り当てることができます。

GPU 利用率、スループット、応答性を最大化

再計算ではなく、CMX 階層から計算済みの KV キャッシュを再利用することで、データパスを最適化し、ストールを削減できます。これにより、マルチターンのエージェント型推論において、1 秒当たりのトークン数とスループットが向上します。CMX は、最初のトークン生成までの時間と最後のトークン生成までの時間を短縮します。そのため、モデル、コンテキストウィンドウ、並列処理が増加しても、応答のストリーミングがより早く開始され、より迅速に完了できます。

AI ポッド全体でスマートで効率的な KV キャッシュ共有を実現

AI ネイティブのコンテキストへの高速なポッド幅アクセスを提供することで、マルチターン型エージェントは、ワークロードの増加に応じて協調、状態の共有、シームレスな拡張ができるほか、ノード間で KV キャッシュの重複や余剰の容量を削減できます。

長コンテキスト推論向けの GPU 容量を拡張

大規模な KV キャッシュ容量を提供し、多くの同時ユーザー向けに、長コンテキスト推論、マルチエージェントワークフロー、兆単位のパラメーター規模のモデル、より長いコンテキストウィンドウをサポートします。

NVIDIA STX

NVIDIA STX は、主要なストレージパートナーと共同設計され、NVIDIA のアクセラレーテッドコンピューティング、ネットワーク、AI ソフトウェアを基盤に構築された、AI ストレージ向けのモジュール式リファレンスアーキテクチャです。NVIDIA STX は、トレーニングや分析からリアルタイムのエージェント型推論まで、AI ライフサイクル全体を高速化する汎用データエンジンの構築基盤を提供します。

NVIDIA STX の詳細を見る

エコシステム

NVIDIA CMX コンテキストメモリストレージパートナー

コンテキスト時代の構成要素

NVIDIA BlueField-4 STX ストレージプラットフォームが、業界での幅広い採用とともに発表

NVIDIA STX は、主要なプロバイダーと共同開発したモジュール型 AI ストレージのリファレンス設計であり、NVIDIA のアクセラレーテッドコンピューティング、ネットワーク、AI ソフトウェアを基盤に構築されています。エージェント型 AI と AI データインフラを強化する NVIDIA BlueField‑4 STX ストレージプラットフォームが、どのように強化されるのかをご覧ください。

プレスリリースを読む

NVIDIA BlueField-4 搭載コンテキストメモリストレージプラットフォームの紹介

新しいクラスの AI ネイティブストレージインフラは、BlueField を活用して推論 GPU のストールを排除し、電力効率を向上させ、高速 KV 共有を可能にすることで、推論インフラの拡張性を向上させます。

ブログを読む