今日の最先端の言語モデルを効率的に処理するには、単一の GPU、あるいはノード全体の処理能力を超えるリソースが必要なことが多いため、AI 推論には分散型のマルチノード デプロイが不可欠です。
NVIDIA Dynamo は、データ センター規模のマルチノード環境にモデルをデプロイするために構築された分散推論サービング フレームワークです。推論のフェーズを異なるGPU に分散して実行し、不要な重複計算を避けるためにリクエストを適切な GPU にインテリジェントにルーティングするとともに、データキャッシュによって GPU メモリをコスト効率の高いストレージ階層へ拡張することで、分散サービングの複雑さを簡素化・自動化します。
NVIDIA NIM™ マイクロサービスには、NVIDIA Dynamo 機能が含まれ、迅速かつ簡単なデプロイ オプションを提供します。 NVIDIA Dynamo は NVIDIA AI Enterprise でもサポートされ、利用可能になっています。
リーズニング AI モデルを拡張する低遅延の分散型推論フレームワーク。
独立ベンチマークでは、GB200 NVL72 と NVIDIA Dynamo を組み合わせることで、NVIDIA Hopper ベースのシステムと比較して、混合エキスパート (MoE) モデルのスループットが最大 15 倍向上することが示されています。
GB200 NVL72 は、高速 NVIDIA NVLink™ 経由で 72 基の GPU を接続し、MoE 推論モデルに不可欠な低遅延のエキスパート通信を可能にします。 NVIDIA Dynamo は、分散型推論を通じて効率を向上させ、ノード間でプリフィルとデコードのフェーズを分割して独立した最適化を実行します。 GB200 NVL72 と NVIDIA Dynamo を組み合わせることで、大規模な MoE 推論向けに最適化された高性能スタックを形成します。
NVIDIA Dynamo は完全にオープンソースであり、完全な透明性と柔軟性を提供します。 NVIDIA Dynamo をデプロイし、その成長に貢献し、既存のスタックにシームレスに統合してください。
GitHub で確認し、コミュニティに参加しましょう!
事前構築された導入しやすいツールを用いて、GPU クラスターのセットアップを簡素化および自動化し、LLM に特化したリアルタイム指標に基づく動的オートスケーリングを可能にすることで、GPU リソースの過剰もしくは不足なプロビジョニングを回避します。
分散サービングやトポロジ認識自動スケーリングなどの高度な LLM 推論サービングの最適化を活用して、ユーザー エクスペリエンスを損なうことなく、処理される推論リクエストの数を増加させます。
オープンなモジュール型設計により、独自のニーズに合った推論サービス コンポーネントを簡単に選択できます。これにより、既存の AI スタックとの互換性を確保し、コストのかかる移行プロジェクトを回避できます。
NVIDIA Dynamo は、TensorRT-LLM、vLLM、SGLang、PyTorch など、主要なフレームワークをすべてサポートしており、バックエンドに関係なく、新しい生成 AI モデルを迅速にデプロイできることを保証します。
NVIDIA Dynamo でイノベーションを推進する方法をご覧ください。
リーズニング モデルは、複雑な問題を解決するために、より多くのトークンを生成し、推論コストを増加させます。 NVIDIA Dynamo は、分散されたサービングなどの機能で、こういったモデルを最適化します。 このアプローチは、プリフィルとデコード計算フェーズを異なる GPU に分離し、AI 推論チームが各フェーズを独立して最適化することを可能にします。 その結果、リソース使用率が向上し、GPU あたりに処理できるクエリ数が増加するとともに推論コストの削減につながります。NVIDIA GB200 NVL72 と組み合わせることで、NVIDIA Dynamo は複合パフォーマンスを最大 15 倍に向上させることができます。
AI モデルが単一ノードに収まらないほど大規模になると、その効率的なサービングが課題となります。 分散型推論は、複数のノードにわたってモデルを分割する必要があるため、Kubernetes ベースの環境でのオーケストレーション、スケーリング、通信の複雑性が高まります。 これらのノードが、特に動的なワークロードの下で、緊密な連携単位として機能することを保証するには、慎重な管理が求められます。 NVIDIA Dynamo は、スケジューリング、拡張、サービングをシームレスに処理する Grove を使用してこれを簡素化するので、インフラの管理ではなく、AI のデプロイに集中できます。
AI エージェントは、LLM、検索システム、専門ツールなど複数のモデルをリアルタイムで使用する際に、膨大な量の KV キャッシュを生成します。 この KV キャッシュは GPU メモリの容量を超えることが多く、スケーリングとパフォーマンスのボトルネックが発生します。
GPU メモリの制限を克服するために、KV データをホスト メモリまたは外部ストレージにキャッシュすることで容量を拡張し、AI エージェントが制約なく拡張できるようにします。 NVIDIA Dynamo は、KV Cache Manager と LMCache などのオープン ソース ツールとの統合により、このプロセスを簡素化し、効率的なキャッシュ管理とスケーラブルな AI エージェント パフォーマンスが確保されます。
コード生成は、多くの場合、モデルの応答に基づいてプロンプトの調整、要件の明確化、出力のデバッグを実施するため、反復的な改良を必要とします。 この反復は、ユーザーの応答ごとにコンテキストの再計算を必要とし、推論コストを増加させます。 NVIDIA Dynamo は、コンテキストの再利用を可能にすることで、このプロセスを最適化します。
NVIDIA Dynamo の LLM 対応ルーターは、マルチノード GPU クラスター全体で KV キャッシュをインテリジェントに管理します。 キャッシュの重複度に基づいてリクエストをルーティングし、再利用可能性が最も高い GPU にリクエストを誘導します。 これにより、大規模なデプロイにおいて冗長なコンピューテーションを最小化し、バランスの取れたパフォーマンスを確保します。
「高度な AI モデルのスケーリングには、推論のコンテキストをメモリとストレージ全体でシームレスに転送する、洗練されたマルチ GPU スケジューリング、シームレスな調整、低遅延の通信ライブラリが必要です。 Dynamo が、エンタープライズ顧客に最高のユーザー体験を提供するのに役立つことを期待しています」
Saurabh Baji 氏、Cohere エンジニアリング担当上級副社長
「毎月数億のリクエストを処理する中で、ビジネスとユーザーの要求するパフォーマンス、信頼性、スケールを提供するために NVIDIA のGPUと推論ソフトウェアを頼りにしています。強化された分散サービング機能を備えた Dynamo を活用して、より多くの推論サービス効率を推進し、新しい AI 推論モデルの計算需要を満たすことを楽しみにしています」
Denis Yarats 氏、Perplexity AI 最高技術責任者。
「推論モデルをコスト効率よくスケーリングするには、分散されたサービングやコンテキスト認識ルーティングなどの新しい高度な推論技術が必要です。 Together AI は、独自の推論エンジンを使用して、業界をリードするパフォーマンスを提供します。 NVIDIA Dynamo のオープン性とモジュール性により、そのコンポーネントをエンジンにシームレスに組み込むことで、リソース使用率を最適化しながらより多くのリクエストに対応し、高速コンピューティングへの投資を最大化できます」
Ce Zhang 氏、Together AI 最高技術責任者。
GitHub でダウンロードして、コミュニティに参加しましょう。
最新のドキュメント、チュートリアル、技術ブログなど、NVIDIA NeMo を使用して開発を始めるために必要な情報をすべてご覧ください。
プロトタイプ開発から本番環境への移行については、NVIDIA の製品スペシャリストにご相談ください。NVIDIA AI Enterprise のセキュリティ、API 安定性、サポートを活用することができます。