NVIDIA Vera Rubin 向けの推論アクセラレーター。
概要
これまでのAI 推論アーキテクチャでは、スループットを犠牲にしてインタラクティブ性とインテリジェンスを実現するか、インタラクティブ性を犠牲にしてスループットとインテリジェンスを実現するかのどちらかでした。 この 3 つを同時に実現することはできませんでした。エージェント型システムは、より多くのものが求められます。
NVIDIA Groq 3 LPX は、エージェント型システムに求められる低遅延と大規模コンテキストの要件を満たすように設計された、NVIDIA Vera Rubin 向け推論アクセラレーターです。 Vera Rubin と LPX は、共同設計されたアーキテクチャを通じて、NVIDIA Rubin GPU と LPU の優れたパフォーマンスを統合します。
推論パフォーマンス
高帯域幅メモリ (HBM) 向け Rubin GPU と静的ランダムアクセス メモリ (SRAM) 向け LPU を組み合わせることで、 LPX 搭載 NVIDIA Vera Rubin は、1 兆パラメータ級モデルと100 万トークンのコンテキストに対応する新しいクラスの推論パフォーマンスを提供します。 Vera Rubin NVL72 とともにデプロイされる Rubin GPU と LPU は、各出力トークンに対して AI モデルのすべてのレイヤーを共同で計算することで、デコード処理を高速化します。
エージェント型システムは、従来の AI アプリケーションと比較して、最大 15 倍のトークンを処理します。 AI ファクトリーは、低遅延と高い経済効率を維持しながら、大量のトークン処理と大規模なコンテキスト ウィンドウに対応する必要があります。 LPX と組み合わせることで、Vera Rubin は、1 兆パラメータ級モデルにおいて、メガワットあたり最大 35 倍のスループットを実現します。
エージェントはインテリジェンスの単位であり、推論はその燃料です。 現実世界で価値を生み出すためには、エージェント型システムは高速でスマートなトークン処理が求められます。 LPX を Vera Rubin と組み合わせることで、ワットあたりのスループットとトークン処理能力が向上し、 1 兆パラメータ級モデルと 100 万トークン コンテキストに対応するウルトラプレミアムな推論の新たな領域を切り拓きます。これにより、あらゆる AI プロバイダーにとって収益機会が拡大します。
NVIDIA Groq 3 LPU は、Groq の革新的な言語処理ユニットの次世代プロセッサーです。 各 LPX ラックには256 基の LPU アクセラレーターが相互接続されており、NVIDIA Vera Rubin プラットフォームと連携して推論を強化します。 各 LPU アクセラレーターは、500 メガバイト (MB) の SRAM、150 テラバイト/秒 (TB/s) の SRAM 帯域幅、2.5 TB/s のスケールアップ帯域幅を実現します。
画期的なテクノロジ
徹底的な共同設計を通じて構築された NVIDIA Vera Rubin NVL72 は、7 つの専用チップを、単一の AI スーパーコンピューターに統合しています。
1 台の LPX ラックに 256 個の LPU チップが集約され、優れたパフォーマンスを実現します。
各ラックで、LPX は、低遅延処理向けの 128 GB の SRAM と、大規模モデルやワークロード向けに 12 TB の DDR5 メモリを提供します。
ラックあたり 40 ペタバイト/秒 (PB/s) の SRAM 帯域幅により、低遅延を実現します。
直接のチップ間リンクは、LPX ラック全体で 640 TB/s のスケールアップ帯域幅を提供し、低遅延のチップ通信を可能にします。
LPX と NVL72間の の高速接続により、遅延はほぼゼロにまで低減されます。
LPX は、NVIDIA MGX™ 抽出、変換、ロード (ETL) ラックを活用し、トークン ファクトリーが NVIDIA Vera Rubin プラットフォームの導入において、単一のユニバーサル ラックに対応できるようにします。
NVIDIA から最新情報、お知らせなどをお届けします。