AI 推論

NVIDIA Dynamo

生成 AI を迅速に拡張し、提供します。

概要

生成 AI のための
低遅延分散型推論

NVIDIA Dynamo は、分散環境で生成 AI モデルを提供するためのオープンソースのモジュール型推論フレームワークです。 動的なリソース スケジューリング、インテリジェントなリクエスト ルーティング、最適化されたメモリ管理、高速データ転送により、大規模な GPU フリート全体で推論ワークロードをシームレスに拡張できます。

NVIDIA GB200 NVL72 上でオープンソースの DeepSeek-R1 671B 推論モデルを提供する際に、NVIDIA Dynamo は提供されるリクエスト数を最大 30 倍に増やし、トークン収益創出を最大化するために、可能な限り低いコストで実行したい AI ファクトリーにとって理想的なソリューションとなりました。

NVIDIA Dynamo は、主要な AI推論バックエンドをすべてサポートしており、分散されたサービング、AI 推論モデルの高速化と拡張など、大規模言語モデル(LLM)固有の最適化を最小限のコストで最高の効率で提供しています。 今後、NVIDIA AI Enterpriseの一部としてサポートされる予定です。

分散型推論とは?

分散型推論は、複数のコンピューティング デバイスまたはノードにわたって AI モデル推論を実行し、計算を並列化することでスループットを最大化するプロセスです。 

このアプローチは、生成 AI などの大規模 AI アプリケーション向けに効率的な拡張を可能にします。 分散型推論は、ユーザーが各ワークロードの固有の要件に対して遅延とスループットを最適化できるようにすることで、全体的なパフォーマンスとリソース使用率を向上させます。

特長

NVIDIA Dynamo の機能を見る

分散されたサービング

LLM コンテキスト (プリフィル)と生成 (デコード) フェーズを異なる GPU 間で分離し、カスタマイズされたモデル並列処理と独立した GPU 割り当てを可能にし、GPU あたりに処理されるリクエストを増加させます。

GPU プランナー

分散型推論環境で GPU 容量を監視し、コンテキストと生成フェーズ間でGPU ワーカーを動的に割り当てて、ボトルネックを解決し、パフォーマンスを最適化します。

スマート ルーター

推論トラフィックを効率的にルーティングし、繰り返しや重複するリクエストのコストのかかる再計算を最小化して、コンピューティング リソースを保護しながら、大規模な GPU フリート全体でバランスの取れた負荷を分散します。

低遅延通信ライブラリ

分散型推論設定でのデータ移動を高速化しながら、GPU、CPU、ネットワーク、ストレージなど、多様なハードウェア全体で転送の複雑さを簡素化します。

利点

NVIDIA Dynamo の利点

1 つの GPU から数千のGPUまでシームレスに拡張

事前構築されたデプロイしやすいツールにより、GPU クラスターのセットアップを効率化・自動化し、リアルタイムの LLM 固有の指標により動的な自動スケーリングを可能にし、GPU リソースの過剰または過少プロビジョニングを回避します。

コストを削減しながら推論サービング容量を増加

高度な LLM 推論サービスは、分散されたサービングなどの最適化を活用し、ユーザー体験を犠牲にすることなく、提供される推論リクエストの数を増加させます。

将来を見据えた AI インフラストラクチャと高コストの移行を回避

オープンなモジュール型設計により、独自のニーズに合った推論サービスコンポーネントを簡単に選択でき、既存の AI スタックとの互換性を確保し、コストのかかる移行プロジェクトを回避できます。

本番環境へ新しい AI モデルのデプロイを高速化

NVIDIA Dynamo は、TensorRT-LLM、vLLM、SGLang、PyTorch など、主要なフレームワークをすべてサポートしており、バックエンドに関係なく、新しい生成 AI モデルを迅速にデプロイできることを保証します。

分散型推論の高速化

NVIDIA Dynamo は完全にオープンソースであり、完全な透明性と柔軟性を提供します。 NVIDIA Dynamo をデプロイし、その成長に貢献し、既存のスタックにシームレスに統合します。

 GitHub で確認し、コミュニティに参加しましょう!

開発する

Triton Inference Server のオープンソース コードにアクセスして開発を行いたいと考えている個人向け。

開発する

無料の開発用 Triton Inference Server コンテナにアクセスしたい個人向け。

体験

NVIDIA LaunchPad から、NVIDIA がホストするインフラとガイド付き実践ラボに無料でアクセスしてお試しいただけます。詳しい手順と事例も含まれます。

デプロイ

既存のインフラストラクチャを使用して、NVIDIA AI Enterprise を本番環境で試用する 90 日間ライセンスを無料で入手できます。

ユース ケース

NVIDIA Dynamo による AI のデプロイ

NVIDIA Dynamo でイノベーションを推進する方法をご覧ください。

推論モデルの提供

推論モデルは、複雑な問題を解決するためのより多くのトークンを生成し、推論コストを増加させます。 NVIDIA Dynamo は、分散されたサービングなどの機能でこれらのモデルを最適化します。 このアプローチは、プリフィルとデコード計算フェーズを異なる GPU に分離し、AI 推論チームが各フェーズを独立して最適化することを可能にします。 その結果、リソース使用率の向上、GPU あたりで処理されるクエリ数が増加、推論コストの削減が実現します。

分散型推論

AI モデルが単一ノードに収まるには大きすぎ、効率的に提供することは課題となっています。 分散型推論は、モデルを複数のノードに分割する必要があり、オーケストレーション、スケーリング、通信の複雑さを増大させます。これらのノードが凝集性のある単位として機能することを確保するには、特に動的なワークロードの下で、慎重な管理が求められます。 NVIDIA Dynamo は、Kubernetes 上で事前構築された機能を提供することで、このプロセスを簡素化し、スケジューリング、スケーリング、提供をシームレスに処理します。これにより、お客様はインフラの管理よりも AI のデプロイに集中できるようになります。

拡張性の優れた AI エージェント

AI エージェントは、LLM、検索システム、特殊化されたツールなど、リアルタイムで同期して動作する複数のモデルに依存しています。 これらのエージェントの拡張は複雑な課題であり、応答性を維持するためのインテリジェントな GPU スケジューリング、効率的な KV キャッシュ管理、超低遅延通信を必要とします。
NVIDIA Dynamo は、組み込まれたインテリジェントな GPU プランナー、スマートなルーター、低遅延通信ライブラリによって、このプロセスを簡素化し、AI エージェントのスケーリングをシームレスで効率的なものにします。

 

コード生成

コード生成は、多くの場合、モデルの応答に基づいてプロンプトの調整、要件の明確化、出力をデバッグするための反復的な改良を必要とします。 この反復は、ユーザーターンごとにコンテキストの再計算を必要とし、推論コストを増加させます。 NVIDIA Dynamo は、コンテキストの再利用とコスト効率の高いメモリへのオフロードを可能にし、高価な再計算を最小化し、全体的な推論コストを削減することで、このプロセスを最適化します。

お客様の声

業界のリーダーたちの、NVIDIA Dynamoに関するコメントを見る


Cohere

「高度な AI モデルのスケーリングには、推論のコンテキストをメモリとストレージ全体でシームレスに転送する、洗練されたマルチ GPU スケジューリング、シームレスな調整、低遅延の通信ライブラリが必要です。 Dynamo が、エンタープライズ顧客に最高のユーザー体験を提供するのに役立つことを期待しています。」 Cohere、エンジニアリング担当上級副社長、Saurabh Baji 氏


Perplexity AI

「毎月数億のリクエストを処理する中で、ビジネスとユーザーの要求するパフォーマンス、信頼性、スケールを提供するために NVIDIA のGPUと推論ソフトウェアを頼りにしています。強化された分散サービング機能を備えた Dynamo を活用して、より多くの推論サービス効率を推進し、新しい AI 推論モデルの計算需要を満たすことを楽しみにしています。」 Perplexity AI、最高技術責任者、Denis Yarats 氏


Together AI

「推論モデルをコスト効率よくスケーリングするには、分散されたサービングやコンテキスト認識ルーティングなどの新しい高度な推論技術が必要です。 Together AI は、独自の推論エンジンを使用して、業界をリードするパフォーマンスを提供します。 Dynamo のオープン性とモジュール化により、コンポーネントを当社のエンジンにシームレスに組み込むことが可能になり、リソース利用を最適化しながらより多くのリクエストに対応し、高速コンピューティングへの投資を最大化することができます。」" Together AI、最高技術責任者、Ce Zhang 氏

Cohere

「高度な AI モデルのスケーリングには、推論のコンテキストをメモリとストレージ全体でシームレスに転送する、洗練されたマルチ GPU スケジューリング、シームレスな調整、低遅延の通信ライブラリが必要です。 NVIDIA Dynamo が、企業顧客に最高のユーザー体験を提供するのに役立つことを期待しています。」 Cohere、エンジニアリング担当上級副社長、Saurabh Baji 氏

Perplexity AI

「毎月数億のリクエストを処理する中で、ビジネスとユーザーの要求するパフォーマンス、信頼性、スケールを提供するために NVIDIA のGPUと推論ソフトウェアを頼りにしています。強化された分散サービング機能を備えた Dynamo を活用して、より多くの推論サービス効率を推進し、新しい AI 推論モデルの計算需要を満たすことを楽しみにしています。」 Perplexity AI、最高技術責任者、Denis Yarats 氏

Together AI

「推論モデルをコスト効率よくスケーリングするには、分散されたサービングやコンテキスト認識ルーティングなどの新しい高度な推論技術が必要です。 Together AI は、独自の推論エンジンを使用して、業界をリードするパフォーマンスを提供します。 Dynamo の開放性とモジュール化により、エンジンにシームレスにコンポーネントを組み込むことが可能になり、リソース利用を最適化しながらより多くのリクエストに対応し、高速コンピューティングへの投資を最大化することができます。」 Together AI、最高技術責任者、Ce Zhang 氏

採用した企業

全産業における主要な採用企業

関連情報

NVIDIA 推論の最新情報

最新のニュースを入手

NVIDIA Dynamo 推論サーバーの最新推論アップデートと発表について読む。

技術ブログを見る

推論を始める方法に関する技術的なチュートリアルをお読みください。

さらに詳しく見る

生成 AI、LLM、レコメンダー システム、コンピューター ビジョンなどの推論用 AI モデルのデプロイ、実行、スケーリングに関するヒントやベストプラクティスを入手できます。

LLM のデプロイ、最適化、ベンチマーク

LLM を効率的に提供する方法を段階的な案内で学びましょう。 複数のバックエンドに LLM を簡単にデプロイしてパフォーマンスを比較する方法や、最適なパフォーマンスを得るためにデプロイ構成をファインチューニングする方法について説明します。

開発から本番環境へのエンタープライズ AI 移行のユースケース

AI 推論とは何か、企業の AI 導入戦略にどのように適合するか、エンタープライズグレードの AI ユースケースをデプロイする際の主な課題、これらの課題に対処するためにフルスタック AI 推論ソリューションが必要な理由、フルスタック プラットフォームの主要コンポーネント、最初の AI 推論ソリューションのデプロイ方法について学びましょう。

クラウド対応 AI 推論ソリューションのパワーを活用する

NVIDIA AI 推論プラットフォームが、どのように主要なクラウド サービス プロバイダーとシームレスに統合され、デプロイを簡略化し、LLM 搭載 AI ユースケースの追加を迅速化するかをご覧ください。

クイックスタート ガイド

NVIDIA Dynamo を初めて利用し、モデルを迅速にデプロイしたいとお考えですか? このクイックスタート ガイドを使用して、NVIDIA Dynamo 活用を始めましょう。

チュートリアル

NVIDIA Dynamo を使い始めると、さまざまな疑問が生じることがあります。このリポジトリをチェックして、NVIDIA Dynamo の機能を理解し、移行を容易にするためのガイドと例を見つけましょう。

NVIDIA LaunchPad

ハンズオン ラボでは、NVIDIA Dynamo を使用して、高速でスケーラブルな AI を体験します。 NVIDIA のアクセラレーテッド コンピューティング インフラストラクチャの利点をすぐに活用して、AI ワークロードを拡張できるようになります。

NVIDIA Dynamo が推論を簡素化する 5 つの理由

NVIDIA Triton Inference Server は、本番環境での AI モデルの大規模なデプロイを簡略化し、チームが、任意の GPU または CPU ベースのインフラストラクチャ上で、ローカルストレージまたはクラウド プラットフォームから、任意のフレームワークのトレーニング済み AI モデルをデプロイできるようにします。

NVIDIA Dynamo を使用して HuggingFace の安定した拡散パイプラインをデプロイする

この動画では、HuggingFace ディフューザーライブラリで利用可能な Stable Diffusion パイプラインのデプロイを紹介します。NVIDIA Dynamo 推論サーバーを使用して、パイプラインをデプロイし実行しています。

NVIDIA Dynamo 推論サーバーの開始

NVIDIA Dynamo は、モデルのデプロイを標準化し、本番環境で高速でスケーラブルな AI を可能にするオープンソースの推論ソリューションです。 多機能であるため、当然「どこから始めればよいか?」という疑問が湧きます。 ご覧ください。

次のステップ

さっそく始めませんか?

GitHub でダウンロードし、コミュニティに参加しましょう!

開発者向け

NVIDIA Dynamot を使用して開発を始めるにあたって、必要なものすべて (最新のドキュメント、チュートリアル、技術ブログなど) をご覧ください。

お問い合わせ

プロトタイプ開発から本番環境への移行については、NVIDIA の製品スペシャリストにご相談ください。NVIDIA AI Enterprise のセキュリティ、API 安定性、サポートを活用することができます。

プレス リリースを読む | 技術ブログを読む

最新のニュースを入手

Dynamo 推論サーバーの最新推論アップデートと発表について読む。

技術ブログを見る

推論を始める方法に関する技術的なチュートリアルをお読みください。

さらに詳しく見る

生成 AI、LLM、レコメンダー システム、コンピューター ビジョンなどの推論用 AI モデルのデプロイ、実行、スケーリングに関するヒントやベストプラクティスを入手できます。

LLM のデプロイ、最適化、ベンチマーク

LLM を効率的に提供する方法を段階的な案内で学びましょう。 複数のバックエンドに LLM を簡単にデプロイしてパフォーマンスを比較する方法や、最適なパフォーマンスを得るためにデプロイ構成をファインチューニングする方法について説明します。

開発から本番環境へのエンタープライズ AI 移行のユースケース

AI 推論とは何か、企業の AI 導入戦略にどのように適合するか、エンタープライズグレードの AI ユースケースをデプロイする際の主な課題、これらの課題に対処するためにフルスタック AI 推論ソリューションが必要な理由、フルスタック プラットフォームの主要コンポーネント、最初の AI 推論ソリューションのデプロイ方法について学びましょう。

クラウド対応 AI 推論ソリューションのパワーを活用する

NVIDIA AI 推論プラットフォームが、どのように主要なクラウド サービス プロバイダーとシームレスに統合され、デプロイを簡略化し、LLM 搭載 AI ユースケースの追加を迅速化するかをご覧ください。

クイックスタート ガイド

Dynamo を初めて使用し、モデルを迅速にデプロイしたいですか? このクイックスタート ガイドを使用して、Dynamo の旅を始めましょう。

チュートリアル

Dynamo を使い始めると、さまざまな疑問が生じることがあります。このリポジトリをチェックして、Dynamo の機能を理解し、移行を容易にするためのガイドと例を見つけましょう。

NVIDIA LaunchPad

ハンズオン ラボでは、NVIDIA Dynamo を使用して、高速でスケーラブルな AI を体験します。 NVIDIA のアクセラレーテッド コンピューティング インフラストラクチャの利点をすぐに活用して、AI ワークロードを拡張できるようになります。

Dynamo が推論を簡素化する 5 つの理由

NVIDIA Triton Inference Server は、本番環境での AI モデルの大規模なデプロイを簡略化し、チームが、任意の GPU または CPU ベースのインフラストラクチャ上で、ローカルストレージまたはクラウド プラットフォームから、任意のフレームワークのトレーニング済み AI モデルをデプロイできるようにします。

HuggingFace の Stable Diffusion パイプラインを Dynamo でデプロイする

この動画では、HuggingFace ディフューザーライブラリで利用可能な Stable Diffusion パイプラインのデプロイを紹介します。Dynamo 推論サーバーを使用して、パイプラインをデプロイし実行しています。

NVIDIA Dynamo 推論サーバーの開始

Dynamo 推論サーバーは、モデルのデプロイを標準化し、本番環境で高速でスケーラブルな AI を可能にするオープンソースの推論ソリューションです。 多機能であるため、当然「どこから始めればよいか?」という疑問が湧きます。 ご覧ください。