推論とは、トレーニングされた AI モデルが新しいデータに対してリーズニングし、予測を行い、新しい出力を生成するプロセスです。入力を分類し、学習した知識をリアルタイムで適用します。
AI 推論は、機械学習と人工知能 (AI) 技術を現実世界に応用することで、高度なアプリケーション導入における課題解決に役立ちます。 音声起動の AI アシスタントやショッピングの際のパーソナライズされたレコメンデーションから、堅牢な不正検知システムまで、推論はあらゆる場所で AI ワークロードを支えています。
関連情報
AI トレーニングは、AI モデルまたはニューラル ネットワークが、一連のトレーニング データに基づいて重みを調整することで、特定のタスクの実行を学習するプロセスです。 このプロセスでは、特に大規模なデータセットを扱い、パラメーターを変更する場合は、高い精度を実現するために複数の反復作業を行います。
推論は、トレーニング済みモデルを現実世界のデータに適用し、予測や分類を通じて新たな出力を生成します。 このフェーズは、スピードと効率性を考慮して最適化されており、多くの場合、投機的デコーディング、量子化、プルーニング、レイヤー フュージョンといった技術が使用され、精度を維持しながらパフォーマンスを向上させます。
モデルは複雑さが増すにつれ、特に高度な AI リーズニング モデルにおいては、推論にはより多くのコンピューティング リソースが必要になります。 企業が次世代の AI ツールをサポートするためには、複雑な問題解決、コーディング、段階的な計画を可能にするアクセラレーテッド コンピューティング リソースを拡張する必要があります。
図の説明: この図は、LLM におけるモデル推論のフローを説明しています。ユーザーによる指示のトークン化から始まり、プリフィル (入力トークン処理) とデコード (出力トークン生成) の 2 つのフェーズを経て進行します。 エンドツーエンドのリクエスト レイテンシには、トークン化、プリフィル、デコード、そして人間が読むことができる出力へのデトークン化の時間が含まれます。
トークンあたりのコスト: AI 推論のコストは、多くの場合、トークンあたりのコストとして測定されます。 これは、トークンの処理と生成に必要な演算リソースが、特にマルチモーダルな大規模言語モデルにおいて重要になるためです。
| 推論の展開の種類 | 説明 |
| バッチ推論 | 複数のユーザー リクエストを組み合わせて GPU 使用率を最大化し、多くのユーザーに高スループットを提供します。 |
| リアルタイム推論 | データが到着した時点で瞬時に処理されます。自動運転や映像解析など、意思決定が即時に必要なアプリケーションに不可欠です。 |
| 分散型 | 複数のデバイスやノードで AI 推論を同時に実行して計算を並列化することで、大規模モデルを効率的に拡張し、低レイテンシを可能にします。 |
| 分離型 | AI の思考プロセスを初期分析と応答生成の 2 つの異なる段階に分け、それぞれを専用コンピューターで実行することで効率性を高めます。 |
大規模言語モデル (LLM) 推論は、生成 AI アプリケーション、チャットボット、文書要約の重要な要素です。 これらの応用では、シームレスなユーザー体験を提供しながら、コスト効率を維持するために、高いパフォーマンス、低レイテンシ、効率的なリソース利用のバランスが求められます。
LLM 推論を評価するための主要な指標には、最初のトークンまでの時間 (TTFT)、トークンを出力するまでの時間 (TPOT)、グッドプット (システムが目標レベルの TTFT と TPOT を維持した上で達成できたスループット) の 3 つがあります。
システムがユーザーのエンゲージメントを維持するために重要な、最初のトークンを生成するまでにかかる時間を測定します。 TTFT がより短いほど、ユーザーは初期応答を迅速に受け取ることができます。これは、ユーザーのエンゲージメントと満足度を維持するために不可欠です。
各後続トークンを生成するのに要する平均時間を測定し、推論プロセスの全体的な速度と効率に影響を与えます。 TPOT の短縮は、応答全体を迅速に生成するために不可欠です。これは、チャットボットやライブ翻訳などのリアルタイム アプリケーションにとって特に重要です。
目標の TTFT と TPOT を維持しながらスループットを測定することで、レイテンシ、パフォーマンス、コストのバランスを調整し、ビジネス目標に合わせて AI 推論を最適化します。
AI 推論の主な課題は、レイテンシ、コスト、スループットのバランスを取ることです。 高いハイパフォーマンスを得るには、GPU のオーバープロビジョニングが必要になることが多く、コストを増大させます。 リアルタイムの低レイテンシを実現するには、より多くの AI インフラの増強、またはバッチ サイズの縮小が必要となり、パフォーマンスを低下させる可能性があります。 追加のコストをかけずに、低レイテンシと高スループットの両方を達成することは困難であり、多くの場合、データ センターのトレードオフを余儀なくされます。
図の説明: AI 推論の中心的な課題は、レイテンシ、コスト、スループットのバランスを取ることです。 どれか 1 つを選ぶことで、最大限の価値を犠牲にしなければならない場合があります。
以下の最適化技術が、これらの課題を克服するために使用できます。
| 技術 | 課題 |
高度なバッチ処理 |
動的バッチ処理、シーケンス バッチ処理、インフライト バッチ処理などの技術は、GPU の使用を最適化し、スループットと遅延のバランスを調整します。 |
チャンク化プリフィル |
入力をより小さなチャンクに分割し、処理時間とコストを削減します。 |
マルチブロック アテンション |
関連する入力部分に集中するようにアテンション機構を最適化し、計算負荷とコストを削減します。 |
モデル アンサンブル |
複数のアルゴリズムを使用して予測の精度と堅牢性を向上させます。 |
動的スケーリング |
GPU リソースをリアルタイムで調整し、コストを最適化し、ピーク負荷時にも高パフォーマンスを維持します。 |
これらの高度な技術とベスト プラクティスを実装することで、企業は自社の AI アプリケーションが高性能、低、コスト効率を実現できるようにし、最終的にはより良いユーザー体験とビジネス成果を推進することができます。
AI 推論は、テストタイム スケーリングと呼ばれる新しいスケーリング則を用いるリーズニング モデルが一連の推論パスを実行できるようにします。このプロセスは、モデルが問題を通じて反復的に「思考」し、より多くの出力トークンを生成し、より長い生成サイクルを形成することで、より高品質な応答の生成に役立ちます。リアルタイム推論をサポートし、リーズニング モデルの応答の品質を向上させるには、相当なテストタイムのコンピューティングが不可欠です。
AI ファクトリーは、AI モデルの開発、展開、継続的な改善を自動化するために設計された大規模なコンピューティング インフラです。 AI 推論は、トレーニング済みモデルが現実世界の予測と意思決定を生成する最終段階として、これらのシステムで重要な役割を果たします。 モデルが AI ファクトリー内で開発されると、推論向けに最適化され、展開され、クラウド、ハイブリッド、オンプレミスなどの環境を問わず高性能で低レイテンシの AI サービスを提供します。
また、AI ファクトリーは、アクセラレーテッド AI インフラの継続的な最適化と管理を通じて、推論を効率的に維持することを保証します。 さらに、AI データ フライホイールを設定することで、推論結果が AI ファクトリーにフィードバックされ、現実世界のデータに基づいてモデルを継続的に学習し、改良することができます。 このフィードバック ループは、AI システムの進化を促し、時間の経過とともに精度と効率を向上させます。 AI ファクトリーは、AI 推論をワークフローに緊密に統合することで、業界全体で拡張可能でコスト効率の高い AI 展開を可能にします。
NVIDIA は、AI 推論を始める際に役立つフルスタックのライブラリ、ソフトウェア、サービスを提供しています。 最大規模の推論エコシステム、専用に構築されたアクセラレーション ソフトウェア、高度なネットワーク、業界をリードするワットあたりのパフォーマンスにより、NVIDIA は、AI コンピューティングの新時代に必要な高スループット、低レイテンシ、コスト効率を提供しています。