AI 推論

NVIDIA Dynamo

AI 推論の拡張と提供を迅速に実行します。

概要

AI のオペレーティング システム

今日の最先端の言語モデルを効率的に処理するには、単一の GPU、あるいはノード全体の処理能力を超えるリソースが必要なことが多いため、AI 推論には分散型のマルチノード デプロイが不可欠です。

NVIDIA Dynamo は、データ センター規模のマルチノード環境にモデルをデプロイするために構築された分散推論サービング フレームワークです。推論のフェーズを異なるGPU に分散して実行し、不要な重複計算を避けるためにリクエストを適切な GPU にインテリジェントにルーティングするとともに、データキャッシュによって GPU メモリをコスト効率の高いストレージ階層へ拡張することで、分散サービングの複雑さを簡素化・自動化します。

NVIDIA NIM™ マイクロサービスには、NVIDIA Dynamo 機能が含まれ、迅速かつ簡単なデプロイ オプションを提供します。 NVIDIA Dynamo は NVIDIA AI Enterprise でもサポートされ、利用可能になっています。

分散型推論とは?

分散型推論は、複数のコンピューティング デバイスまたはノードにわたって AI モデル推論を実行して、計算を並列化することでスループットを最大化するプロセスです。

このアプローチは、生成 AI などの大規模 AI アプリケーションで、複数の GPU 間またはクラウド インフラストラクチャ間でワークロードを分散することで、効率的な拡張を可能にします。 分散型推論は、ユーザーが各ワークロードの固有の要件に対して遅延とスループットを最適化できるようにすることで、全体的なパフォーマンスとリソース使用率を向上させます。

NVIDIA Dynamo の詳細を見る

リーズニング AI モデルを拡張する低遅延の分散型推論フレームワーク。

独立ベンチマークでは、GB200 NVL72 と NVIDIA Dynamo を組み合わせることで、NVIDIA Hopper ベースのシステムと比較して、混合エキスパート (MoE) モデルのスループットが最大 15 倍向上することが示されています。 

GB200 NVL72 は、高速 NVIDIA NVLink™ 経由で 72 基の GPU を接続し、MoE 推論モデルに不可欠な低遅延のエキスパート通信を可能にします。 NVIDIA Dynamo は、分散型推論を通じて効率を向上させ、ノード間でプリフィルとデコードのフェーズを分割して独立した最適化を実行します。 GB200 NVL72 と NVIDIA Dynamo を組み合わせることで、大規模な MoE 推論向けに最適化された高性能スタックを形成します。

特徴

NVIDIA Dynamo の機能を見る

分散されたサービング

異なる GPU 間で大規模言語モデル (LLM) コンテキストと生成フェーズを分離し、GPU ごとに割り当てと最適化を独立して行えるようにすることで、GPU 1 基あたりに提供されるリクエスト数を増加させます。

LLM 対応ルーター

推論トラフィックを効率的にルーティングし、重複または類似したリクエストによるコストの高い再計算を最小限に抑えることで計算リソースを節約しつつ、大規模な GPU フリート全体で負荷を均等に分散します。

ストレージへの KV キャッシュ

限られた GPU メモリから KV キャッシュを、CPU RAM、ローカル SSD、ネットワーク ストレージなど、スケーラブルでコスト効率の高いストレージに瞬時にオフロードします。

トポロジ最適化 Kubernetes サービング (Grove)

統一された Kubernetes のカスタムリソースを用いることで、単一ノードおよびマルチノード環境において、相互に依存する AI 推論コンポーネントの効率的なスケーリングと、宣言的な起動順序の制御を可能にします。

GPU プランナー

分散型推論環境で GPU 容量を監視し、コンテキストと生成フェーズ全体で GPU ワーカーを動的に割り当てて、ボトルネックを解決してパフォーマンスを最適化します。

低遅延通信ライブラリ (NIXL)

分散型推論環境におけるデータ移動を高速化しながら、GPU、CPU、ネットワーク、ストレージなど、多様なハードウェア全体で転送の複雑さを簡素化します。

AIConfigurator

モデル、GPU 予算、SLO に合わせて最適なプリフィルとデコードの構成とモデル並列戦略を推奨することで、分散サービング クラスターにおける手探りの作業を排除します。

AIPerf

コマンドライン出力と詳細なパフォーマンス レポートによる詳細な指標を使用して、あらゆる推論ソリューションの生成 AI モデルのパフォーマンスをベンチマークします。

分散型推論の高速化

NVIDIA Dynamo は完全にオープンソースであり、完全な透明性と柔軟性を提供します。 NVIDIA Dynamo をデプロイし、その成長に貢献し、既存のスタックにシームレスに統合してください。

 GitHub で確認し、コミュニティに参加しましょう!

利点

NVIDIA Dynamo の利点

1 基の GPU から数千基の GPU までシームレスに拡張

事前構築された導入しやすいツールを用いて、GPU クラスターのセットアップを簡素化および自動化し、LLM に特化したリアルタイム指標に基づく動的オートスケーリングを可能にすることで、GPU リソースの過剰もしくは不足なプロビジョニングを回避します。

コストを削減しながら推論サービング容量を増加

分散サービングやトポロジ認識自動スケーリングなどの高度な LLM 推論サービングの最適化を活用して、ユーザー エクスペリエンスを損なうことなく、処理される推論リクエストの数を増加させます。

AI インフラストラクチャの将来性を確保し、高額な移行コストを回避

オープンなモジュール型設計により、独自のニーズに合った推論サービス コンポーネントを簡単に選択できます。これにより、既存の AI スタックとの互換性を確保し、コストのかかる移行プロジェクトを回避できます。

本番環境における新しい AI モデルのデプロイを迅速化

NVIDIA Dynamo は、TensorRT-LLM、vLLM、SGLang、PyTorch など、主要なフレームワークをすべてサポートしており、バックエンドに関係なく、新しい生成 AI モデルを迅速にデプロイできることを保証します。

ユース ケース

NVIDIA Dynamo による AI のデプロイ

NVIDIA Dynamo でイノベーションを推進する方法をご覧ください。

リーズニング モデルのサービング

リーズニング モデルは、複雑な問題を解決するために、より多くのトークンを生成し、推論コストを増加させます。 NVIDIA Dynamo は、分散されたサービングなどの機能で、こういったモデルを最適化します。 このアプローチは、プリフィルとデコード計算フェーズを異なる GPU に分離し、AI 推論チームが各フェーズを独立して最適化することを可能にします。 その結果、リソース使用率が向上し、GPU あたりに処理できるクエリ数が増加するとともに推論コストの削減につながります。NVIDIA GB200 NVL72 と組み合わせることで、NVIDIA Dynamo は複合パフォーマンスを最大 15 倍に向上させることができます。

Kubernetes AI スケーリング

AI モデルが単一ノードに収まらないほど大規模になると、その効率的なサービングが課題となります。 分散型推論は、複数のノードにわたってモデルを分割する必要があるため、Kubernetes ベースの環境でのオーケストレーション、スケーリング、通信の複雑性が高まります。 これらのノードが、特に動的なワークロードの下で、緊密な連携単位として機能することを保証するには、慎重な管理が求められます。 NVIDIA Dynamo は、スケジューリング、拡張、サービングをシームレスに処理する Grove を使用してこれを簡素化するので、インフラの管理ではなく、AI のデプロイに集中できます。

スケーラブルな AI エージェント

AI エージェントは、LLM、検索システム、専門ツールなど複数のモデルをリアルタイムで使用する際に、膨大な量の KV キャッシュを生成します。 この KV キャッシュは GPU メモリの容量を超えることが多く、スケーリングとパフォーマンスのボトルネックが発生します。

GPU メモリの制限を克服するために、KV データをホスト メモリまたは外部ストレージにキャッシュすることで容量を拡張し、AI エージェントが制約なく拡張できるようにします。 NVIDIA Dynamo は、KV Cache Manager と LMCache などのオープン ソース ツールとの統合により、このプロセスを簡素化し、効率的なキャッシュ管理とスケーラブルな AI エージェント パフォーマンスが確保されます。

コード生成

コード生成は、多くの場合、モデルの応答に基づいてプロンプトの調整、要件の明確化、出力のデバッグを実施するため、反復的な改良を必要とします。 この反復は、ユーザーの応答ごとにコンテキストの再計算を必要とし、推論コストを増加させます。 NVIDIA Dynamo は、コンテキストの再利用を可能にすることで、このプロセスを最適化します。

NVIDIA Dynamo の LLM 対応ルーターは、マルチノード GPU クラスター全体で KV キャッシュをインテリジェントに管理します。 キャッシュの重複度に基づいてリクエストをルーティングし、再利用可能性が最も高い GPU にリクエストを誘導します。 これにより、大規模なデプロイにおいて冗長なコンピューテーションを最小化し、バランスの取れたパフォーマンスを確保します。

お客様の声

業界のリーダーたちの、NVIDIA Dynamoに関するコメントを見る

Cohere

「高度な AI モデルのスケーリングには、推論のコンテキストをメモリとストレージ全体でシームレスに転送する、洗練されたマルチ GPU スケジューリング、シームレスな調整、低遅延の通信ライブラリが必要です。 Dynamo が、エンタープライズ顧客に最高のユーザー体験を提供するのに役立つことを期待しています」

Saurabh Baji 氏、Cohere エンジニアリング担当上級副社長

Perplexity AI

「毎月数億のリクエストを処理する中で、ビジネスとユーザーの要求するパフォーマンス、信頼性、スケールを提供するために NVIDIA のGPUと推論ソフトウェアを頼りにしています。強化された分散サービング機能を備えた Dynamo を活用して、より多くの推論サービス効率を推進し、新しい AI 推論モデルの計算需要を満たすことを楽しみにしています」

Denis Yarats 氏、Perplexity AI 最高技術責任者

Together AI

「推論モデルをコスト効率よくスケーリングするには、分散されたサービングやコンテキスト認識ルーティングなどの新しい高度な推論技術が必要です。 Together AI は、独自の推論エンジンを使用して、業界をリードするパフォーマンスを提供します。 NVIDIA Dynamo のオープン性とモジュール性により、そのコンポーネントをエンジンにシームレスに組み込むことで、リソース使用率を最適化しながらより多くのリクエストに対応し、高速コンピューティングへの投資を最大化できます」

Ce Zhang 氏、Together AI 最高技術責任者

導入事例

業界のリーダーが NVIDIA Dynamo プラットフォームを使用してモデルのデプロイを強化している方法

採用した企業

全産業における主要な採用企業

リソース

NVIDIA 推論の最新情報

最新のニュースを入手

NVIDIA Dynamo 推論サーバーの最新推論アップデートと発表について読む。

技術ブログを読む

推論を始める方法に関する技術的なチュートリアルをお読みください。

さらに詳しく見る

生成 AI、LLM、レコメンダー システム、コンピューター ビジョンなどの推論用 AI モデルのデプロイ、実行、スケーリングに関するヒントやベストプラクティスを入手できます。

LLM 推論パフォーマンスの向上

NVIDIA Dynamo Office Hour の録画を視聴いただき、NVIDIA Dynamo で LLM サービングを最適化する方法をご確認ください。オープンソース モデルと推論バックエンドで LLM 対応ルーティング、分散型サービング、動的な自動スケーリングを使用して、SLA を達成し、インタラクティブ性およびスループットを向上させる方法をご覧ください。

LLM のスケーリングを実現する低遅延の分散型推論

NVIDIA Dynamo を使用して推論型 LLM をデプロイし、拡張する方法をご覧ください。分散プリフィルやデコードなどの高度なサービング技術について紹介し、NVIDIA NIM がどのようにして次世代 AI 推論の大規模な本番環境向けの迅速なデプロイを可能にするのかを説明します。

Kubernetes ネイティブ AI サービング

複雑な AI 推論ワークロードをオーケストレーションする Kubernetes ネイティブ ソリューションである Grove をご覧ください。 NVIDIA Dynamo の一部である Grove は、強力な API を通じて AI フレームワークと Kubernetes の間のギャップを埋め、Kubernetes 上でスケーラブルかつ効率的な AI 推論をこれまで以上に容易にします。

クイックスタート ガイド

NVIDIA Dynamo を初めて利用される方で、モデルを迅速にデプロイしたいとお考えですか? このクイックスタート ガイドを使用して、NVIDIA Dynamo の活用を始めましょう。

チュートリアル

NVIDIA Dynamo を使い始めると、さまざまな疑問が生じることがあります。このリポジトリをチェックして、NVIDIA Dynamo の機能を理解し、容易に移行するためのガイドと例をご覧ください。

NVIDIA Brev

NVIDIA Brev を使用すると、NVIDIA GPU のパワーを数秒で解き放つことができます。主要なクラウド プラットフォームへの即時アクセス、自動セットアップ、柔軟なデプロイが可能になります。 今すぐ AI プロジェクトの構築と拡張を開始しましょう。

NVIDIA Dynamo AIConfigurator を使用して AI サービングを最適化する方法

AIConfigurator は、分散サービングにおける試行錯誤や勘に頼る作業を不要にします。お使いのモデル、GPU 予算、SLO に基づいてパフォーマンス目標を達成する最適な構成を推奨します。 この動画では、AIConfigurator を開始する方法についてご紹介します。

SGLang と NVIDIA Dynamo による推論の拡張

SGLang × NVIDIA Meetup の録画をご覧になり、SGLang と NVIDIA Dynamo チームの知見を使用した大規模な推論パフォーマンスについて確認してください。アプリケーションで AI 推論を最適化する最新の進展と統合戦略についてご紹介します。

効率的な AI 推論のための高度な手法

この動画では、AI 推論の 3 つの重要な要素である品質、コスト、速度に焦点を当て、テストタイム スケーリングが各要素に与える影響について説明します。 NVIDIA Dynamo がどのようにして分散、KV オフロード、KV ルーティングなどの高度な技術を通じて正確な制御を提供し、トレードオフなしで大規模なモデルのデプロイを最適化するかをご覧ください。

次のステップ

さっそく始めませんか?

GitHub でダウンロードして、コミュニティに参加しましょう。

開発者の方向け

最新のドキュメント、チュートリアル、技術ブログなど、NVIDIA NeMo を使用して開発を始めるために必要な情報をすべてご覧ください。

お問い合わせ

プロトタイプ開発から本番環境への移行については、NVIDIA の製品スペシャリストにご相談ください。NVIDIA AI Enterprise のセキュリティ、API 安定性、サポートを活用することができます。

プレス リリースを読む | 技術ブログを読む

最新のニュースを入手

Dynamo 推論サーバーの推論に関する最新情報と発表について読む。

技術ブログを読む

推論を始める方法に関する技術的なチュートリアルをお読みください。

さらに詳しく見る

生成 AI、LLM、レコメンダー システム、コンピューター ビジョンなどの推論用 AI モデルのデプロイ、実行、スケーリングに関するヒントやベストプラクティスを入手できます。

LLM のデプロイ、最適化、ベンチマーク

LLM を効率的に提供する方法を段階的な手順を通して説明します。 複数のバックエンドに LLM を簡単にデプロイしてパフォーマンスを比較する方法や、最適なパフォーマンスを得るためにデプロイ構成をファインチューニングする方法について説明します。

開発から本番環境へのエンタープライズ AI 移行のユースケース

AI 推論とは何か、企業の AI 導入戦略にどのように適合するか、エンタープライズグレードの AI ユースケースをデプロイする際の主な課題、これらの課題に対処するためにフルスタック AI 推論ソリューションが必要な理由、フルスタック プラットフォームの主要コンポーネント、最初の AI 推論ソリューションのデプロイ方法について学びましょう。

クラウド対応 AI 推論ソリューションのパワーを活用する

NVIDIA AI 推論プラットフォームが、どのように主要なクラウド サービス プロバイダーとシームレスに統合され、デプロイを簡略化し、LLM 搭載 AI ユースケースの追加を迅速化するかをご覧ください。

クイックスタート ガイド

Dynamo を初めて利用し、モデルを迅速にデプロイしたいとお考えですか? このクイックスタート ガイドを使用して、Dynamo の導入を始めましょう。

チュートリアル

Dynamo を使い始めると、さまざまな疑問が生じることがあります。このリポジトリをチェックして、Dynamo の機能を理解し、移行を容易にするためのガイドと例を見つけましょう。

NVIDIA LaunchPad

ハンズオン ラボでは、NVIDIA Dynamo を使用して、高速でスケーラブルな AI を体験できます。 NVIDIA のアクセラレーテッド コンピューティング インフラストラクチャの利点をすぐに活用して、AI ワークロードを拡張できるようになります。

Dynamo が推論を簡素化する 5 つの理由

NVIDIA Triton Inference Server は、本番環境での AI モデルの大規模なデプロイを簡略化し、チームが、任意の GPU または CPU ベースのインフラストラクチャ上で、ローカル ストレージまたはクラウド プラットフォームから、任意のフレームワークのトレーニング済み AI モデルをデプロイできるようにします。

HuggingFace の Stable Diffusion パイプラインを Dynamo でデプロイする

この動画では、HuggingFace ディフューザー ライブラリで利用可能な Stable Diffusion パイプラインのデプロイを紹介します。Dynamo 推論サーバーを使用して、パイプラインをデプロイし実行しています。

NVIDIA Dynamo 推論サーバーの利用を開始する

Dynamo 推論サーバーは、モデルのデプロイを標準化し、本番環境で高速でスケーラブルな AI を可能にするオープンソースの推論ソリューションです。 多機能であるため、当然「どこから始めればよいか?」という疑問が湧きます。 ご覧ください。