NVIDIA Groq 3 LPX

NVIDIA Vera Rubin 向けの推論アクセラレーター。

概要

スピードと拡張性の融合

これまでのAI 推論アーキテクチャでは、スループットを犠牲にしてインタラクティブ性とインテリジェンスを実現するか、インタラクティブ性を犠牲にしてスループットとインテリジェンスを実現するかのどちらかでした。 この 3 つを同時に実現することはできませんでした。エージェント型システムは、より多くのものが求められます。

NVIDIA Groq 3 LPX は、エージェント型システムに求められる低遅延と大規模コンテキストの要件を満たすように設計された、NVIDIA Vera Rubin 向け推論アクセラレーターです。 Vera Rubin と LPX は、共同設計されたアーキテクチャを通じて、NVIDIA Rubin GPU と LPU の優れたパフォーマンスを統合します。

NVIDIA Vera Rubin がエージェント型 AI のフロンティアを切り開く

NVIDIA Vera Rubin プラットフォームには、世界最大級の AI ファクトリーを拡張するために、現在本番環境でフル稼働している 7 種類の新しいチップが搭載されています。

NVIDIA Groq 3 LPX の内部: NVIDIA Vera Rubin プラットフォームの 7 番目のチップ

NVIDIA Groq 3 LPX は、リアルタイム推論ワークロード向けの NVIDIA Rubin GPU を補完する、決定論的かつ低遅延のトークン生成により、AI ファクトリーを拡張します。

推論パフォーマンス

極めて低い遅延と圧倒的なスループット

高帯域幅メモリ (HBM) 向け Rubin GPU と静的ランダムアクセス メモリ (SRAM) 向け LPU を組み合わせることで、 LPX 搭載 NVIDIA Vera Rubin は、1 兆パラメータ級モデルと100 万トークンのコンテキストに対応する新しいクラスの推論パフォーマンスを提供します。 Vera Rubin NVL72 とともにデプロイされる Rubin GPU と LPU は、各出力トークンに対して AI モデルのすべてのレイヤーを共同で計算することで、デコード処理を高速化します。

1 兆パラメータ級モデルで 35 倍のスループット

エージェント型システムは、従来の AI アプリケーションと比較して、最大 15 倍のトークンを処理します。 AI ファクトリーは、低遅延と高い経済効率を維持しながら、大量のトークン処理と大規模なコンテキスト ウィンドウに対応する必要があります。 LPX と組み合わせることで、Vera Rubin は、1 兆パラメータ級モデルにおいて、メガワットあたり最大 35 倍のスループットを実現します。

新しい推論カテゴリ: 収益機会を 10 倍に

エージェントはインテリジェンスの単位であり、推論はその燃料です。 現実世界で価値を生み出すためには、エージェント型システムは高速でスマートなトークン処理が求められます。 LPX を Vera Rubin と組み合わせることで、ワットあたりのスループットとトークン処理能力が向上し、 1 兆パラメータ級モデルと 100 万トークン コンテキストに対応するウルトラプレミアムな推論の新たな領域を切り拓きます。これにより、あらゆる AI プロバイダーにとって収益機会が拡大します。

1 兆パラメータ級モデルで 35 倍のスループット

エージェント型システムは、従来の AI アプリケーションと比較して、最大 15 倍のトークンを処理します。 トークン ファクトリーは、低遅延と高い経済効率を維持しながら、大量のトークン処理と大規模なコンテキスト ウィンドウに対応する必要があります。 LPX と組み合わせることで、Vera Rubin は、1 兆パラメータ級モデルにおいて、メガワットあたり最大 35 倍のスループットを実現します。

新しい推論カテゴリ: 収益機会を 10 倍に

エージェントはインテリジェンスの単位であり、推論はその燃料です。 現実世界で価値を生み出すためには、エージェント型システムに、より高速で多くのコンテキストを扱える高付加価値トークン処理が求められます。 LPX を Vera Rubin と組み合わせることで、AI ファクトリーは高付加価値のトークンを大規模に生成でき、ワットあたり 10 倍の収益機会を生み出します。

NVIDIA Groq 3 LPU 推論アクセラレーター

NVIDIA Groq 3 LPU は、Groq の革新的な言語処理ユニットの次世代プロセッサーです。 各 LPX ラックには256 基の LPU アクセラレーターが相互接続されており、NVIDIA Vera Rubin プラットフォームと連携して推論を強化します。 各 LPU アクセラレーターは、500 メガバイト (MB) の SRAM、150 テラバイト/秒 (TB/s) の SRAM 帯域幅、2.5 TB/s のスケールアップ帯域幅を実現します。

NVIDIA Groq 3 LPU 推論アクセラレーター

NVIDIA Groq 3 LPU は、Groq の革新的な言語処理ユニットの次世代プロセッサーです。 各 LPX ラックには256 基の LPU アクセラレーターが相互接続されており、NVIDIA Vera Rubin プラットフォームと連携して推論を強化します。 各 LPU アクセラレーターは、500 メガバイト (MB) の SRAM、150 テラバイト/秒 (TB/s) の SRAM 帯域幅、2.5 TB/s のスケールアップ帯域幅を実現します。

画期的なテクノロジ

それは「極限の共同設計」です。 驚異的な成果。

徹底的な共同設計を通じて構築された NVIDIA Vera Rubin NVL72 は、7 つの専用チップを、単一の AI スーパーコンピューターに統合しています。

ラック スケール

1 台の LPX ラックに 256 個の LPU チップが集約され、優れたパフォーマンスを実現します。

フュージョン メモリ アーキテクチャ

各ラックで、LPX は、低遅延処理向けの 128 GB の SRAM と、大規模モデルやワークロード向けに 12 TB の DDR5 メモリを提供します。

高速度 SRAM

ラックあたり 40 ペタバイト/秒 (PB/s) の SRAM 帯域幅により、低遅延を実現します。

大規模なスケールアップ帯域幅

直接のチップ間リンクは、LPX ラック全体で 640 TB/s のスケールアップ帯域幅を提供し、低遅延のチップ通信を可能にします。

NVIDIA NVL72 による高速接続

LPX と NVL72間の の高速接続により、遅延はほぼゼロにまで低減されます。

NVIDIA MGX ETL ラック

LPX は、NVIDIA MGX™ 抽出、変換、ロード (ETL) ラックを活用し、トークン ファクトリーが NVIDIA Vera Rubin プラットフォームの導入において、単一のユニバーサル ラックに対応できるようにします。

今すぐ始める

NVIDIA の最新情報を受け取る

NVIDIA から最新情報、お知らせなどをお届けします。