AI 推論ソリューション

NVIDIA 推論プラットフォーム

最もパフォーマンスと効率性に優れ、収益性の高い AI ファクトリーを実現しています。

今すぐ始める

シリーズを読む | パフォーマンスベンチマーク | 開発者向け

概要
パフォーマンス
利点
プラットフォーム
導入事例
関連情報
次のステップ

概要
パフォーマンス
利点
プラットフォーム
導入事例
関連情報
次のステップ

今すぐ始める

概要

AI 推論を収益的にスケールさせる方法は？

チャットボット、コパイロット、クリエイティブツールを通じての AI 体験方法である AI 推論は、二重指数関数的なペースでスケールしています。ユーザーの採用は加速しており、エージェント型ワークフロー、長期思考の推論、混合エキスパート (MoE) モデルによって実現される AI トークン数は並行して急増しています。

この大規模な推論を可能にするために、NVIDIA は毎年データセンター規模のアーキテクチャを提供しています。当社の徹底したハードウェアとソフトウェアの共同設計は、パフォーマンスを飛躍的に向上させ、トークンあたりのコストを削減し、大規模な環境で高度な AI 体験を経済的に実現します。

NVIDIA GB300 NVL72 は、Hopper™ と比較して、ワットあたり 50 倍のトークン、35 分の 1 のトークンコストを実現し、同じ電力予算内で収益を最大化し、利益率の向上を推進します。継続的なソフトウェア最適化は、チップ、ラック、データセンターのスケールで最大のパフォーマンスを引き出し、時間の経過とともに投資収益率をさらに向上させます。

NVIDIA Vera Rubin が次なる AI フロンティアを切り開く

NVIDIA Vera Rubin プラットフォームは、世界最大級の AI ファクトリーをスケールするために、現在本番環境でフル稼働している 7 つの新しいチップで構成されています。

ブログを読む

大手推論プロバイダーが、NVIDIA Blackwell 上のオープンソースモデルを活用して AI コストを最大 10 分の 1 に削減

Baseten、Deep Infra、Fireworks AI、Together AI は、NVIDIA Blackwell プラットフォームで実行される最適化された推論スタックにより、業界全体でトークンあたりのコストを削減しています。

ブログを読む

推論パフォーマンスによりトークンコストを削減

クリックして画像を拡大

DeepSeek-R1 8K/1K の結果は、NVIDIA Blackwell GB200 NVL72 のパフォーマンス上の利点と収益機会が Hopper H200 と比較して 15 倍であることを示しています。

利点

最高のパフォーマンスが収益を最大化

高度なハードウェアとソフトウェアの共同設計により、NVIDIA GB300 NVL72 は、Hopper と比較してワットあたり 50 倍のトークンを提供し、同じ電力予算内で AI ファクトリーの収益を最大化します。継続的なソフトウェア最適化は、チップ、ラック、データセンターのスケールで最大のパフォーマンスを引き出し、時間の経過とともに投資収益率をさらに向上させます。

最小限のトークンコストで利益率が拡大

NVIDIA GB300 NVL72 システムは、NVIDIA Hopper プラットフォームと比較してトークンあたりのコストを 35 分の 1 に削減し、AI ファクトリーの利益率の向上を推進しています。各世代で、インフラコストをはるかに上回るパフォーマンスの向上が進み、大規模で高度な AI 体験を支える経済性の向上を可能にしています。

すべてのモデルとユースケースを最適化するフルスタック

NVIDIA は、生成 AI から従来の機械学習、科学コンピューティング、生物学、フィジカル AI まで、あらゆるモデルをサポートしています。遅延に敏感なリアルタイムアプリケーションから高スループットなバッチ処理まで、NVIDIA はあらゆるユースケースで最高のパフォーマンスを提供します。このプラットフォームは、進化するワークロードとビジネス要件に応じて最適な構成を選択できる最大の柔軟性とプログラマビリティを提供します。

ネイティブ統合がデプロイを加速

Dynamo や TensorRT™ LLM など、NVIDIA の本番環境対応ソフトウェアと、PyTorch、vLLM、SGLang、llm-d などの主要フレームワークとのネイティブ統合により、最も堅牢な AI 推論スタックを提供します。モデルアーキテクチャと推論手法が急速に進化する中、NVIDIA のスタックは、イノベーションから本番環境まで最速のパスを確保します。

プラットフォーム

エクストリームハードウェアソフトウェア共同設計

スマートなオーケストレーションがない強力なハードウェアは、潜在能力を浪費してしまいます。一方、高速なハードウェアがなければ、優れたソフトウェアでも推論パフォーマンスは低下します。 NVIDIA の推論プラットフォームは、共同設計のコンピューティング、ネットワーク、ストレージ、ソフトウェアで継続的に最適化されたフルスタックソリューションを提供し、多様なワークロードで最高のパフォーマンスを実現します。

NVIDIA のハードウェアとソフトウェアの主なイノベーションをいくつかご覧ください。

NVIDIA Vera Rubin NVL72

NVIDIA Vera Rubin プラットフォームは、Blackwell と比較して、ワットあたりのパフォーマンスが 10 倍向上し、トークンあたりのコストが 10 分の 1 に低減します。徹底的な共同設計を通じて、このプラットフォームは、大規模なコンテキストプリフィル用の Rubin GPU と高速デコード用の LPX を組み合わせることで、速度とスケールの間のトレードオフを排除します。

7 つの新しいチップと 1 台の AI スーパーコンピューター

NVIDIA Grace Blackwell Ultra NVL72

GB300 NVL72 は、72 基の B300 GPU を 130 TB/s の NVLink™ で接続しているため、相互にシームレスに通信し、大規模なエキスパート混合モデルをスケールで展開できます。

GB200 NVL72 に関する優れた AI 推論パフォーマンスを体験

NVIDIA Dynamo

NVIDIA Dynamo は、AI ファクトリー規模でマルチノード環境にモデルをデプロイするオープンソースの分散推論サービングフレームワークです。推論を分離し、ルーティングを最適化し、コスト効率の高いストレージ層へのデータキャッシュを通じてメモリを拡張することで、分散サービングを効率化します。

Dynamo による複数のノードへのシームレスなデプロイ

TensorRT LLM

TensorRT LLM は、NVIDIA GPU 上で継続的に最適化された高性能なリアルタイム LLM 推論を実現するオープンソースライブラリです。モジュール型 Python ランタイム、PyTorch ネイティブのオーサリング、安定した本番環境 API を活用することで、スループットを最大化し、コストを最小化し、高速なユーザー体験を提供できるように最適化されています。

TensorRT LLM による推論の最適化

パフォーマンスの最適バランスを解析

複雑な AI のトレードオフが、現実世界の成果にどのようにつながるかを疑問に思ったことはありませんか? 以下のパフォーマンス曲線のさまざまなポイントを探索して、ハードウェアとソフトウェアの高度な共同設計（コデザイン）によって、NVIDIA Blackwell Ultra が最もパフォーマンスと効率性に優れ、収益性の高い選択肢になることを直接ご確認ください。

TPS / user

–

TPS / MW

–

シミュレーションされたチャット体験

DeepSeek R1 ISL = 32K、OSL = 8K、GB300 NVL72 (FP4 Dynamo 分散) H100 は FP8 インフライトバッチ処理を適用。パフォーマンスは変更される場合があります。

各構成がどのようにして実際のユーザー体験に変換されるのか疑問に思っていますか? 一人で曲線を探索するか、[Explore with TJ (TJ と探索)] をクリックして TJ のガイダンスを受けながら探索してください。そして、右側のシミュレーションされたチャットでそれが実現される様子を確認してください。

NVIDIA Dynamo AI コンフィギュレーターでさらに探求

導入事例

業界のリーダーが AI 推論でイノベーションを推進している方法

導入事例をもっと見る

Amdocs

生成 AI の性能を高速化し、コストを削減

Amdocs が amAIz を構築するまでの過程をご覧ください、amAIz は通信業者向けのドメイン固有の生成 AI プラットフォームであり、NVIDIA DGX™ Cloud と NVIDIA NIM 推論マイクロサービスを使用することで、遅延を改善し、正確性を大きく向上させ、コストを削減します。

ケーススタディを読む

Snapchat

衣料品購買を AI で強化

Snapchat が、Triton Inference Server を使用して、衣服のショッピング体験を向上させ、絵文字を認識する光学文字認識を実現し、規模の拡大、コスト削減、開発期間の短縮を実現した方法をご覧ください。

ケーススタディを読む

Amazon

顧客満足度の向上

Amazon が TensorRT を使用して、どのように推論を 5 倍に高速化し顧客満足度を改善したのかをご覧ください。

ケーススタディを読む

AI 推論リソースの最新情報

ブログ
セッション
トレーニング
動画

他のセッションを見る

NVIDIA LaunchPad で推論を始める

現在進行中の AI プロジェクトはありますか?皆さんの AI ソリューションをテストし、プロトタイピングすることができる実践的な経験にぜひお申し込みください。

今すぐ申し込む

生成 AI と LLM ラーニングパスを見る

当社の包括的なラーニングパスを使用して、生成 AI や大規模言語モデルの技術スキルを向上させましょう。

詳細を見る

NVIDIA LaunchPad での生成 AI 推論を始める

NVIDIA NIM 推論マイクロサービスと AI モデルに今すぐ無料で短期間アクセスし、生成 AI への取り組みを迅速化しませんか。

今すぐ始める

トレーニングをもっと見る

生成 AI を NVIDIA NIM で本番環境にデプロイ

NVIDIA NIM は生成 AI の可能性を引き出します。この動画では、NVIDIA NIM マイクロサービスが、AI のデプロイを本番環境に対応したパワフルなソリューションに変貌させる方法を説明します。

動画を見る (01:55)

Triton が推論をシンプルにする 5 つの理由

Triton Inference Server は、本番環境への大規模な AI モデルの展開を簡素化します。オープンソースの推論サービスソフトウェアにより、チームはローカルストレージまたはクラウドプラットフォームなど、あらゆるフレームワークからトレーニング済みの AI モデルをあらゆる GPU または CPU ベースのインフラストラクチャにデプロイできます。

動画を見る (01:59)

UneeQ

NVIDIA が NIM を発表

NVIDIA の NIM 技術で何ができるのか疑問に思ったことはありませんか? 驚くべきデジタルヒューマンやロボットの世界について深く掘り下げながら、NIM が実現する可能性について確認しましょう。

動画を見る (13:42)

他の動画を見る

次のステップ

さっそく始めませんか?

最新のドキュメント、チュートリアル、技術ブログなど、AI アプリケーション開発を始めるために必要な情報をすべてご覧ください。

開発を始める開発を始める

推論ワークロードに最適なハードウェアを見つける

NVIDIA データセンターソリューションは、一部の NVIDIA パートナーネットワーク (NPN) を通じてご利用いただけます。最新の NVIDIA データセンターソリューションを利用するための柔軟でお手頃なオプションを、NVIDIA パートナーネットワークを通じてご検討ください。

NVIDIA Marketplace を見る

NVIDIA AI 推論に関する最新情報を受け取る

NVIDIA から最新ニュース、アップデートなどの情報を受け取るには登録してください。

情報を受け取る

NVIDIA 推論プラットフォーム

AI 推論を収益的にスケールさせる方法は？

NVIDIA Vera Rubin が次なる AI フロンティアを切り開く

大手推論プロバイダーが、NVIDIA Blackwell 上のオープン ソース モデルを活用して AI コストを最大 10 分の 1 に削減

推論パフォーマンスによりトークン コストを削減

最高のパフォーマンスが収益を最大化

最小限のトークン コストで利益率が拡大

すべてのモデルとユース ケースを最適化するフル スタック

ネイティブ統合がデプロイを加速

エクストリーム ハードウェア ソフトウェア 共同設計

NVIDIA Vera Rubin NVL72

NVIDIA Grace Blackwell Ultra NVL72

NVIDIA Dynamo

TensorRT LLM

パフォーマンスの最適バランスを解析

業界のリーダーが AI 推論でイノベーションを推進している方法

生成 AI の性能を高速化し、コストを削減

衣料品購買を AI で強化

顧客満足度の向上

AI 推論リソースの最新情報

NVIDIA LaunchPad で推論を始める

生成 AI と LLM ラーニング パスを見る

NVIDIA LaunchPad での生成 AI 推論を始める

生成 AI を NVIDIA NIM で本番環境にデプロイ

Triton が推論をシンプルにする 5 つの理由

NVIDIA が NIM を発表

さっそく始めませんか?

推論ワークロードに最適なハードウェアを見つける

NVIDIA AI 推論に関する最新情報を受け取る

AI 推論関連の最新情報を NVIDIA から受け取る

大手推論プロバイダーが、NVIDIA Blackwell 上のオープンソースモデルを活用して AI コストを最大 10 分の 1 に削減

推論パフォーマンスによりトークンコストを削減

最小限のトークンコストで利益率が拡大

すべてのモデルとユースケースを最適化するフルスタック

エクストリームハードウェアソフトウェア共同設計

生成 AI と LLM ラーニングパスを見る