NVIDIA Dynamo は、分散環境で生成 AI モデルを提供するためのオープンソースのモジュール型推論フレームワークです。 動的なリソース スケジューリング、インテリジェントなリクエスト ルーティング、最適化されたメモリ管理、高速データ転送により、大規模な GPU フリート全体で推論ワークロードをシームレスに拡張できます。
NVIDIA GB200 NVL72 上でオープンソースの DeepSeek-R1 671B 推論モデルを提供する際に、NVIDIA Dynamo は提供されるリクエスト数を最大 30 倍に増やし、トークン収益創出を最大化するために、可能な限り低いコストで実行したい AI ファクトリーにとって理想的なソリューションとなりました。
NVIDIA Dynamo は、主要な AI推論バックエンドをすべてサポートしており、分散されたサービング、AI 推論モデルの高速化と拡張など、大規模言語モデル(LLM)固有の最適化を最小限のコストで最高の効率で提供しています。 今後、NVIDIA AI Enterpriseの一部としてサポートされる予定です。
LLM コンテキスト (プリフィル)と生成 (デコード) フェーズを異なる GPU 間で分離し、カスタマイズされたモデル並列処理と独立した GPU 割り当てを可能にし、GPU あたりに処理されるリクエストを増加させます。
分散型推論環境で GPU 容量を監視し、コンテキストと生成フェーズ間でGPU ワーカーを動的に割り当てて、ボトルネックを解決し、パフォーマンスを最適化します。
推論トラフィックを効率的にルーティングし、繰り返しや重複するリクエストのコストのかかる再計算を最小化して、コンピューティング リソースを保護しながら、大規模な GPU フリート全体でバランスの取れた負荷を分散します。
分散型推論設定でのデータ移動を高速化しながら、GPU、CPU、ネットワーク、ストレージなど、多様なハードウェア全体で転送の複雑さを簡素化します。
事前構築されたデプロイしやすいツールにより、GPU クラスターのセットアップを効率化・自動化し、リアルタイムの LLM 固有の指標により動的な自動スケーリングを可能にし、GPU リソースの過剰または過少プロビジョニングを回避します。
高度な LLM 推論サービスは、分散されたサービングなどの最適化を活用し、ユーザー体験を犠牲にすることなく、提供される推論リクエストの数を増加させます。
オープンなモジュール型設計により、独自のニーズに合った推論サービスコンポーネントを簡単に選択でき、既存の AI スタックとの互換性を確保し、コストのかかる移行プロジェクトを回避できます。
NVIDIA Dynamo は、TensorRT-LLM、vLLM、SGLang、PyTorch など、主要なフレームワークをすべてサポートしており、バックエンドに関係なく、新しい生成 AI モデルを迅速にデプロイできることを保証します。
NVIDIA Dynamo は完全にオープンソースであり、完全な透明性と柔軟性を提供します。 NVIDIA Dynamo をデプロイし、その成長に貢献し、既存のスタックにシームレスに統合します。
GitHub で確認し、コミュニティに参加しましょう!
NVIDIA Dynamo でイノベーションを推進する方法をご覧ください。
推論モデルは、複雑な問題を解決するためのより多くのトークンを生成し、推論コストを増加させます。 NVIDIA Dynamo は、分散されたサービングなどの機能でこれらのモデルを最適化します。 このアプローチは、プリフィルとデコード計算フェーズを異なる GPU に分離し、AI 推論チームが各フェーズを独立して最適化することを可能にします。 その結果、リソース使用率の向上、GPU あたりで処理されるクエリ数が増加、推論コストの削減が実現します。
AI モデルが単一ノードに収まるには大きすぎ、効率的に提供することは課題となっています。 分散型推論は、モデルを複数のノードに分割する必要があり、オーケストレーション、スケーリング、通信の複雑さを増大させます。これらのノードが凝集性のある単位として機能することを確保するには、特に動的なワークロードの下で、慎重な管理が求められます。 NVIDIA Dynamo は、Kubernetes 上で事前構築された機能を提供することで、このプロセスを簡素化し、スケジューリング、スケーリング、提供をシームレスに処理します。これにより、お客様はインフラの管理よりも AI のデプロイに集中できるようになります。
AI エージェントは、LLM、検索システム、特殊化されたツールなど、リアルタイムで同期して動作する複数のモデルに依存しています。 これらのエージェントの拡張は複雑な課題であり、応答性を維持するためのインテリジェントな GPU スケジューリング、効率的な KV キャッシュ管理、超低遅延通信を必要とします。
NVIDIA Dynamo は、組み込まれたインテリジェントな GPU プランナー、スマートなルーター、低遅延通信ライブラリによって、このプロセスを簡素化し、AI エージェントのスケーリングをシームレスで効率的なものにします。
コード生成は、多くの場合、モデルの応答に基づいてプロンプトの調整、要件の明確化、出力をデバッグするための反復的な改良を必要とします。 この反復は、ユーザーターンごとにコンテキストの再計算を必要とし、推論コストを増加させます。 NVIDIA Dynamo は、コンテキストの再利用とコスト効率の高いメモリへのオフロードを可能にし、高価な再計算を最小化し、全体的な推論コストを削減することで、このプロセスを最適化します。
GitHub でダウンロードし、コミュニティに参加しましょう!
NVIDIA Dynamot を使用して開発を始めるにあたって、必要なものすべて (最新のドキュメント、チュートリアル、技術ブログなど) をご覧ください。
プロトタイプ開発から本番環境への移行については、NVIDIA の製品スペシャリストにご相談ください。NVIDIA AI Enterprise のセキュリティ、API 安定性、サポートを活用することができます。