AI 推論とは?

推論とは、トレーニングされた AI モデルが新しいデータに対してリーズニングし、予測を行い、新しい出力を生成するプロセスです。入力を分類し、学習した知識をリアルタイムで適用します。

AI 推論の利点とは?

AI 推論は、機械学習人工知能 (AI) 技術を現実世界に応用することで、高度なアプリケーション導入における課題解決に役立ちます。 音声起動の AI アシスタントやショッピングの際のパーソナライズされたレコメンデーションから、堅牢な不正検知システムまで、推論はあらゆる場所で AI ワークロードを支えています。 

  • 新製品、ワークフロー、AI ソリューション: 推論はテストタイムのコンピューティングと AI リーズニングを強化します。 DeepSeek-R1Google DeepMind の Gemini 2.0 Flash Thinking、NVIDIA Llama Nemotron™ モデルなどのモデルは、新しいクラスの AI リーズニング モデル、つまり「長時間思考」モデルです。リーズニング モデルは、複雑な問題を解決するために複数のパスを実行し、より高い精度と説明可能性を提供します。これは、低レイテンシで高性能な推論によってのみ可能になります。
  • ユーザー体験の向上: 高性能な AI 推論は、リアルタイムの対話に対して高速かつ正確な応答を提供することで、エンドユーザーの体験を向上させます。 トークンあたりのコストとシステム全体の遅延のバランスを取りながら、高品質なユーザー体験を保証します。
  • 安全性と信頼性: ロボティクスや自動運転車など、安全性が極めて重要なアプリケーションでは、正確でリアルタイムな推論が不可欠です。低な推論により、これらのシステムは環境を瞬時に認識、解釈、対応できるようになり、応答時間を短縮して精度と安全性を向上させます。 
  • ワークフローの自動化: AI 推論は、反復的なタスクを自動化し、生産性を向上させ、エラーを削減し、人的資源をより複雑なタスクに振り分けられるようにします。

AI トレーニングと推論の主な違い

AI トレーニングは、AI モデルまたはニューラル ネットワークが、一連のトレーニング データに基づいて重みを調整することで、特定のタスクの実行を学習するプロセスです。 このプロセスでは、特に大規模なデータセットを扱い、パラメーターを変更する場合は、高い精度を実現するために複数の反復作業を行います。

推論は、トレーニング済みモデルを現実世界のデータに適用し、予測や分類を通じて新たな出力を生成します。 このフェーズは、スピードと効率性を考慮して最適化されており、多くの場合、投機的デコーディング、量子化、プルーニング、レイヤー フュージョンといった技術が使用され、精度を維持しながらパフォーマンスを向上させます。

モデルは複雑さが増すにつれ、特に高度な AI リーズニング モデルにおいては、推論にはより多くのコンピューティング リソースが必要になります。 企業が次世代の AI ツールをサポートするためには、複雑な問題解決、コーディング、段階的な計画を可能にするアクセラレーテッド コンピューティング リソースを拡張する必要があります。

AI 推論の仕組み

AI 推論は、特に大規模言語モデル (LLM) の文脈においては、AI トークンを生成し、これらのトークンに関連するスピード、コスト、ユーザー体験を決定することで機能します。 高性能な GPU やネットワーキングなどの特別なハードウェアは、この大規模なワークロードに必要なコンピューティングと効率性を提供するために使用され、アクセラレーテッド コンピューティングによって可能になるフルスタック ソフトウェアでさらに最適化されます。

図の説明: この図は、LLM におけるモデル推論のフローを説明しています。ユーザーによる指示のトークン化から始まり、プリフィル (入力トークン処理) とデコード (出力トークン生成) の 2 つのフェーズを経て進行します。 エンドツーエンドのリクエスト レイテンシには、トークン化、プリフィル、デコード、そして人間が読むことができる出力へのデトークン化の時間が含まれます。

モデル推論


  • 入力処理: ユーザーが入力データ (例: テキスト クエリなど) を提供すると、AI モデルはこの入力を処理してトークンに分割します。 トークンとは、モデルが理解して処理できるテキストの最小単位です。 たとえば、トークン化戦略によっては、文が単語、サブワード、さらには文字に分割される場合があります。
  • トークン生成: モデルは、入力から得られたトークンを使用して応答を生成します。 モデルは、レイヤーを通じてこれらの埋め込みを処理し、文脈に適した応答を生成します。 このステップでは、一般的に複雑なモデルの演算を大幅に高速化できる並列処理能力を持つ GPU が使用されます。
  • 出力デコード: 生成されたトークンは、一貫した応答に組み立てられ、それがユーザーに返されます。

 

AI トークン コスト

トークンあたりのコスト: AI 推論のコストは、多くの場合、トークンあたりのコストとして測定されます。 これは、トークンの処理と生成に必要な演算リソースが、特にマルチモーダルな大規模言語モデルにおいて重要になるためです。

  • レイテンシ: レイテンシとは、AI 推論で各トークンを生成するのにかかる時間のことです。 低レイテンシは、ユーザー体験を向上させるため、リアルタイム AI アプリケーションにとって重要です。 しかし、低レイテンシを実現するには、より強力なハードウェアとリアルタイム処理が必要になり、コストが増加することが多く、計算負荷も増えることもあります。
  • スループット: 時間単位で処理できるトークン数も、コストに影響します。 モデルを最適化し、動的バッチ処理などの技術を使用することで、より高いスループットを実現することができます。

AI 推論の方法

推論の展開の種類 説明
バッチ推論 複数のユーザー リクエストを組み合わせて GPU 使用率を最大化し、多くのユーザーに高スループットを提供します。
リアルタイム推論 データが到着した時点で瞬時に処理されます。自動運転や映像解析など、意思決定が即時に必要なアプリケーションに不可欠です。
分散型 複数のデバイスやノードで AI 推論を同時に実行して計算を並列化することで、大規模モデルを効率的に拡張し、低レイテンシを可能にします。
分離型 AI の思考プロセスを初期分析と応答生成の 2 つの異なる段階に分け、それぞれを専用コンピューターで実行することで効率性を高めます。

生成 AI 用途向けの LLM 推論

大規模言語モデル (LLM) 推論は、生成 AI アプリケーション、チャットボット、文書要約の重要な要素です。 これらの応用では、シームレスなユーザー体験を提供しながら、コスト効率を維持するために、高いパフォーマンス、低レイテンシ、効率的なリソース利用のバランスが求められます。

LLM 推論を評価するための主要な指標には、最初のトークンまでの時間 (TTFT)、トークンを出力するまでの時間 (TPOT)、グッドプット (システムが目標レベルの TTFT と TPOT を維持した上で達成できたスループット) の 3 つがあります。 

最初のトークンまでの時間 (TTFT): ユーザー体験

システムがユーザーのエンゲージメントを維持するために重要な、最初のトークンを生成するまでにかかる時間を測定します。 TTFT がより短いほど、ユーザーは初期応答を迅速に受け取ることができます。これは、ユーザーのエンゲージメントと満足度を維持するために不可欠です。

出力トークンあたりの時間 (TPOT): スループット

各後続トークンを生成するのに要する平均時間を測定し、推論プロセスの全体的な速度と効率に影響を与えます。 TPOT の短縮は、応答全体を迅速に生成するために不可欠です。これは、チャットボットやライブ翻訳などのリアルタイム アプリケーションにとって特に重要です。

グッドプット: システム効率

目標の TTFT と TPOT を維持しながらスループットを測定することで、レイテンシ、パフォーマンス、コストのバランスを調整し、ビジネス目標に合わせて AI 推論を最適化します。

AI 推論の課題とは?

AI 推論の主な課題は、レイテンシ、コスト、スループットのバランスを取ることです。 高いハイパフォーマンスを得るには、GPU のオーバープロビジョニングが必要になることが多く、コストを増大させます。 リアルタイムの低レイテンシを実現するには、より多くの AI インフラの増強、またはバッチ サイズの縮小が必要となり、パフォーマンスを低下させる可能性があります。 追加のコストをかけずに、低レイテンシと高スループットの両方を達成することは困難であり、多くの場合、データ センターのトレードオフを余儀なくされます。

図の説明: AI 推論の中心的な課題は、レイテンシ、コスト、スループットのバランスを取ることです。 どれか 1 つを選ぶことで、最大限の価値を犠牲にしなければならない場合があります。

以下の最適化技術が、これらの課題を克服するために使用できます。

技術 課題

高度なバッチ処理

動的バッチ処理、シーケンス バッチ処理、インフライト バッチ処理などの技術は、GPU の使用を最適化し、スループットと遅延のバランスを調整します。

チャンク化プリフィル

入力をより小さなチャンクに分割し、処理時間とコストを削減します。

マルチブロック アテンション

関連する入力部分に集中するようにアテンション機構を最適化し、計算負荷とコストを削減します。

モデル アンサンブル

複数のアルゴリズムを使用して予測の精度と堅牢性を向上させます。

動的スケーリング

GPU リソースをリアルタイムで調整し、コストを最適化し、ピーク負荷時にも高パフォーマンスを維持します。

これらの高度な技術とベスト プラクティスを実装することで、企業は自社の AI アプリケーションが高性能、低、コスト効率を実現できるようにし、最終的にはより良いユーザー体験とビジネス成果を推進することができます。

推論はどのようにして AI リーズニング (論理的思考) を可能にするのか?

AI 推論は、テストタイム スケーリングと呼ばれる新しいスケーリング則を用いるリーズニング モデルが一連の推論パスを実行できるようにします。このプロセスは、モデルが問題を通じて反復的に「思考」し、より多くの出力トークンを生成し、より長い生成サイクルを形成することで、より高品質な応答の生成に役立ちます。リアルタイム推論をサポートし、リーズニング モデルの応答の品質を向上させるには、相当なテストタイムのコンピューティングが不可欠です。

AI 推論は AI ファクトリーではどのように機能するのか?

AI ファクトリーは、AI モデルの開発、展開、継続的な改善を自動化するために設計された大規模なコンピューティング インフラです。 AI 推論は、トレーニング済みモデルが現実世界の予測と意思決定を生成する最終段階として、これらのシステムで重要な役割を果たします。 モデルが AI ファクトリー内で開発されると、推論向けに最適化され、展開され、クラウド、ハイブリッド、オンプレミスなどの環境を問わず高性能で低レイテンシの AI サービスを提供します。 

また、AI ファクトリーは、アクセラレーテッド AI インフラの継続的な最適化と管理を通じて、推論を効率的に維持することを保証します。 さらに、AI データ フライホイールを設定することで、推論結果が AI ファクトリーにフィードバックされ、現実世界のデータに基づいてモデルを継続的に学習し、改良することができます。 このフィードバック ループは、AI システムの進化を促し、時間の経過とともに精度と効率を向上させます。 AI ファクトリーは、AI 推論をワークフローに緊密に統合することで、業界全体で拡張可能でコスト効率の高い AI 展開を可能にします。

AI 推論を使ってみる

NVIDIA は、AI 推論を始める際に役立つフルスタックのライブラリ、ソフトウェア、サービスを提供しています。 最大規模の推論エコシステム、専用に構築されたアクセラレーション ソフトウェア、高度なネットワーク、業界をリードするワットあたりのパフォーマンスにより、NVIDIA は、AI コンピューティングの新時代に必要な高スループット、低レイテンシ、コスト効率を提供しています。

次のステップ

NVIDIA 推論の詳細を学ぶ

AI へのフルスタックのアプローチである NVIDIA Dynamo を含む、NVIDIA 推論プラットフォーム についてご紹介します。

推論を最適化する方法を見つける

NVIDIA フルスタック ソリューションを活用して、高スループットと低レイテンシを実現する AI 推論を最適化する方法をご覧ください。

パフォーマンス ベンチマーク

推論パフォーマンス ベンチマークを参考にし、ご希望のモデルのパフォーマンスを確認してください。