概要
チャットボット、コパイロット、クリエイティブ ツールを通じての AI 体験方法である AI 推論は、二重指数関数的なペースでスケールしています。ユーザーの採用は加速しており、エージェント型ワークフロー、長期思考の推論、混合エキスパート (MoE) モデルによって実現される AI トークン数は並行して急増しています。
この大規模な推論を可能にするために、NVIDIA は毎年データセンター規模のアーキテクチャを提供しています。 当社の徹底したハードウェアとソフトウェアの共同設計は、パフォーマンスを飛躍的に向上させ、トークンあたりのコストを削減し、大規模な環境で高度な AI 体験を経済的に実現します。
NVIDIA GB300 NVL72 は、Hopper™ と比較して、ワットあたり 50 倍のトークン、35 分の 1 のトークンコストを実現し、同じ電力予算内で収益を最大化し、利益率の向上を推進します。継続的なソフトウェア最適化は、チップ、ラック、データセンターのスケールで最大のパフォーマンスを引き出し、時間の経過とともに投資収益率をさらに向上させます。
利点
高度なハードウェアとソフトウェアの共同設計により、NVIDIA GB300 NVL72 は、Hopper と比較してワットあたり 50 倍のトークンを提供し、同じ電力予算内で AI ファクトリーの収益を最大化します。継続的なソフトウェア最適化は、チップ、ラック、データセンターのスケールで最大のパフォーマンスを引き出し、時間の経過とともに投資収益率をさらに向上させます。
NVIDIA GB300 NVL72 システムは、NVIDIA Hopper プラットフォームと比較してトークンあたりのコストを 35 分の 1 に削減し、AI ファクトリーの利益率の向上を推進しています。 各世代で、インフラ コストをはるかに上回るパフォーマンスの向上が進み、大規模で高度な AI 体験を支える経済性の向上を可能にしています。
NVIDIA は、生成 AI から従来の機械学習、科学コンピューティング、生物学、フィジカル AI まで、あらゆるモデルをサポートしています。 遅延に敏感なリアルタイム アプリケーションから高スループットなバッチ処理まで、NVIDIA はあらゆるユース ケースで最高のパフォーマンスを提供します。 このプラットフォームは、進化するワークロードとビジネス要件に応じて最適な構成を選択できる最大の柔軟性とプログラマビリティを提供します。
Dynamo や TensorRT™ LLM など、NVIDIA の本番環境対応ソフトウェアと、PyTorch、vLLM、SGLang、llm-d などの主要フレームワークとのネイティブ統合により、最も堅牢な AI 推論スタックを提供します。 モデル アーキテクチャと推論手法が急速に進化する中、NVIDIA のスタックは、イノベーションから本番環境まで最速のパスを確保します。
プラットフォーム
スマートなオーケストレーションがない強力なハードウェアは、潜在能力を浪費してしまいます。一方、高速なハードウェアがなければ、優れたソフトウェアでも推論パフォーマンスは低下します。 NVIDIA の推論プラットフォームは、共同設計のコンピューティング、ネットワーク、ストレージ、ソフトウェアで継続的に最適化されたフルスタック ソリューションを提供し、多様なワークロードで最高のパフォーマンスを実現します。
NVIDIA のハードウェアとソフトウェアの主なイノベーションをいくつかご覧ください。
導入事例
関連情報
次のステップ