NVIDIA Groq 3 LPX

NVIDIA Vera Rubin 向けの推論アクセラレーター。

概要
パフォーマンス
画期的なテクノロジ
今すぐ始める

概要
パフォーマンス
画期的なテクノロジ
今すぐ始める

概要

スピードと拡張性の融合

これまでのAI 推論アーキテクチャでは、スループットを犠牲にしてインタラクティブ性とインテリジェンスを実現するか、インタラクティブ性を犠牲にしてスループットとインテリジェンスを実現するかのどちらかでした。この 3 つを同時に実現することはできませんでした。エージェント型システムは、より多くのものが求められます。

NVIDIA Groq 3 LPX は、エージェント型システムに求められる低遅延と大規模コンテキストの要件を満たすように設計された、NVIDIA Vera Rubin 向け推論アクセラレーターです。 Vera Rubin と LPX は、共同設計されたアーキテクチャを通じて、NVIDIA Rubin GPU と LPU の優れたパフォーマンスを統合します。

NVIDIA Vera Rubin がエージェント型 AI のフロンティアを切り開く

NVIDIA Vera Rubin プラットフォームには、世界最大級の AI ファクトリーを拡張するために、現在本番環境でフル稼働している 7 種類の新しいチップが搭載されています。

プレスリリースを読む

NVIDIA Groq 3 LPX の内部: NVIDIA Vera Rubin プラットフォームの 7 番目のチップ

NVIDIA Groq 3 LPX は、リアルタイム推論ワークロード向けの NVIDIA Rubin GPU を補完する、決定論的かつ低遅延のトークン生成により、AI ファクトリーを拡張します。

技術ブログを読む

推論パフォーマンス

極めて低い遅延と圧倒的なスループット

高帯域幅メモリ (HBM) 向け Rubin GPU と静的ランダムアクセスメモリ (SRAM) 向け LPU を組み合わせることで、 LPX 搭載 NVIDIA Vera Rubin は、1 兆パラメータ級モデルと100 万トークンのコンテキストに対応する新しいクラスの推論パフォーマンスを提供します。 Vera Rubin NVL72 とともにデプロイされる Rubin GPU と LPU は、各出力トークンに対して AI モデルのすべてのレイヤーを共同で計算することで、デコード処理を高速化します。

1 兆パラメータ級モデルで 35 倍のスループット

エージェント型システムは、従来の AI アプリケーションと比較して、最大 15 倍のトークンを処理します。 AI ファクトリーは、低遅延と高い経済効率を維持しながら、大量のトークン処理と大規模なコンテキストウィンドウに対応する必要があります。 LPX と組み合わせることで、Vera Rubin は、1 兆パラメータ級モデルにおいて、メガワットあたり最大 35 倍のスループットを実現します。

新しい推論カテゴリ: 収益機会を 10 倍に

エージェントはインテリジェンスの単位であり、推論はその燃料です。現実世界で価値を生み出すためには、エージェント型システムは高速でスマートなトークン処理が求められます。 LPX を Vera Rubin と組み合わせることで、ワットあたりのスループットとトークン処理能力が向上し、 1 兆パラメータ級モデルと 100 万トークンコンテキストに対応するウルトラプレミアムな推論の新たな領域を切り拓きます。これにより、あらゆる AI プロバイダーにとって収益機会が拡大します。

1 兆パラメータ級モデルで 35 倍のスループット

エージェント型システムは、従来の AI アプリケーションと比較して、最大 15 倍のトークンを処理します。トークンファクトリーは、低遅延と高い経済効率を維持しながら、大量のトークン処理と大規模なコンテキストウィンドウに対応する必要があります。 LPX と組み合わせることで、Vera Rubin は、1 兆パラメータ級モデルにおいて、メガワットあたり最大 35 倍のスループットを実現します。

新しい推論カテゴリ: 収益機会を 10 倍に

エージェントはインテリジェンスの単位であり、推論はその燃料です。現実世界で価値を生み出すためには、エージェント型システムに、より高速で多くのコンテキストを扱える高付加価値トークン処理が求められます。 LPX を Vera Rubin と組み合わせることで、AI ファクトリーは高付加価値のトークンを大規模に生成でき、ワットあたり 10 倍の収益機会を生み出します。

NVIDIA Groq 3 LPU 推論アクセラレーター

NVIDIA Groq 3 LPU は、Groq の革新的な言語処理ユニットの次世代プロセッサーです。各 LPX ラックには256 基の LPU アクセラレーターが相互接続されており、NVIDIA Vera Rubin プラットフォームと連携して推論を強化します。各 LPU アクセラレーターは、500 メガバイト (MB) の SRAM、150 テラバイト/秒 (TB/s) の SRAM 帯域幅、2.5 TB/s のスケールアップ帯域幅を実現します。