NVIDIA Vera Rubin 向けの推論アクセラレーター。
概要
これまでのAI 推論アーキテクチャでは、スループットを犠牲にしてインタラクティブ性とインテリジェンスを実現するか、インタラクティブ性を犠牲にしてスループットとインテリジェンスを実現するかのどちらかでした。この 3 つを同時に実現することはできませんでした。エージェント型システムは、より多くのものが求められます。
NVIDIA Groq 3 LPX は、エージェント型システムに求められる低遅延と大規模コンテキストの要件を満たすように設計された、NVIDIA Vera Rubin 向け推論アクセラレーターです。 Vera Rubin と LPX は、共同設計されたアーキテクチャを通じて、NVIDIA Rubin GPU と LPU の優れたパフォーマンスを統合します。
推論パフォーマンス
高帯域幅メモリ (HBM) 向け Rubin GPU と静的ランダムアクセス メモリ (SRAM) 向け LPU を組み合わせることで、 LPX 搭載 NVIDIA Vera Rubin は、1 兆パラメータ級モデルと100 万トークンのコンテキストに対応する新しいクラスの推論パフォーマンスを提供します。 Vera Rubin NVL72 とともにデプロイされる Rubin GPU と LPU は、各出力トークンに対して AI モデルのすべてのレイヤーを共同で計算することで、デコード処理を高速化します。
エージェント型システムは、従来の AI アプリケーションと比較して、最大 15 倍のトークンを処理します。 AI ファクトリーは、低遅延と高い経済効率を維持しながら、大量のトークン処理と大規模なコンテキスト ウィンドウに対応する必要があります。 LPX と組み合わせることで、Vera Rubin NVL72 は、兆単位パラメータ級モデルにおいて、メガワット (MW) あたり最大 35 倍のスループットを実現します。
TPS: 1 秒あたりのトークン数。 パフォーマンスの予測値は変更される場合があります。無料利用枠 ($0): Qwen-3 32K キー値 (KV) キャッシュされたトークンを搭載した 2350 億パラメータ モデル。 ミディアムティア ($3): Kimi K2.5 1 兆パラメータ モデル、128K KV キャッシュされたトークン。ハイティア ($6): GPT-MoE 2 兆パラメータ モデル、128K KV キャッシュ型トークン。 プレミアム ($45) および Ultra ($150) ティア: GPT-MoE 2 兆パラメータ モデル、400K KV キャッシュ型トークン。
エージェントはインテリジェンスの単位であり、推論はその燃料です。 現実世界で価値を生み出すためには、エージェント型システムに、より高速で多くのコンテキストを扱える高付加価値トークン処理が求められます。 LPX を Vera Rubin と組み合わせることで、AI ファクトリーは高付加価値のトークンを大規模に生成でき、ワットあたり 10 倍の収益機会を生み出します。
ギガワットあたりの AI ファクトリーのスループットと、100 万トークンあたりの推定コストに基づく階層型価格設定モデルによる予測収益。
NVIDIA Groq 3 LPU は、Groq の革新的な言語処理ユニットの次世代プロセッサーです。 各 LPX ラックには256 基の LPU アクセラレーターが相互接続されており、NVIDIA Vera Rubin プラットフォームと連携して推論を強化します。 各 LPU アクセラレーターは、500 メガバイト (MB) の SRAM、150 テラバイト/秒 (TB/s) の SRAM 帯域幅、2.5 TB/s のスケールアップ帯域幅を実現します。
画期的なテクノロジ
徹底的な共同設計を通じて構築された NVIDIA Vera Rubin NVL72 は、7 つの専用チップを、単一の AI スーパーコンピューターに統合しています。
1 台の LPX ラックに 256 個の LPU チップが集約され、優れたパフォーマンスを実現します。
各ラックで、LPX は、低遅延処理向けの 128 GB の SRAM と、大規模モデルやワークロード向けに 12 TB の DDR5 メモリを提供します。
ラックあたり 40 ペタバイト/秒 (PB/s) の SRAM 帯域幅により、低遅延を実現します。
直接のチップ間リンクは、LPX ラック全体で 640 TB/s のスケールアップ帯域幅を提供し、低遅延のチップ通信を可能にします。
LPX と NVL72間の の高速接続により、遅延はほぼゼロにまで低減されます。
LPX は、NVIDIA MGX™ 抽出、変換、ロード (ETL) ラックを活用し、トークン ファクトリーが NVIDIA Vera Rubin プラットフォームの導入において、単一のユニバーサル ラックに対応できるようにします。
NVIDIA から最新情報、お知らせなどをお届けします。