NVIDIA Groq 3 LPX

Der Inferenzbeschleuniger für NVIDIA Vera Rubin.

Überblick
Leistung
Technologische Durchbrüche
Erste Schritte

Überblick
Leistung
Technologische Durchbrüche
Erste Schritte

Überblick

Geschwindigkeit trifft auf Skalierbarkeit

In der Vergangenheit boten KI-Inferenz-Architekturen entweder Interaktivität und Intelligenz auf Kosten des Durchsatzes oder Durchsatz und Intelligenz auf Kosten der Interaktivität. Alle drei Eigenschaften gleichzeitig waren nicht möglich. Agentische Systeme erfordern mehr.

NVIDIA Groq 3 LPX ist der Inferenzbeschleuniger für NVIDIA Vera Rubin, der für die Anforderungen agentischer Systeme in Bezug auf geringe Latenz und große Kontexte entwickelt wurde. Vera Rubin und LPX vereinen die extreme Leistungsfähigkeit der NVIDIA Rubin-GPUs und -LPUs durch eine gemeinsam entwickelte Architektur.

NVIDIA Vera Rubin eröffnet neue Horizonte für agentische KI

Die NVIDIA Vera Rubin-Plattform umfasst sieben neue Chips, die sich jetzt in voller Produktion befinden, um die weltweit größten KI-Fabriken zu skalieren.

Pressemitteilung lesen

Ein Blick in NVIDIA Groq 3 LPX: Der siebte Chip der NVIDIA Vera Rubin-Plattform

NVIDIA Groq 3 LPX erweitert die KI-Fabrik mit deterministischer Token-Generierung mit geringer Latenz, die NVIDIA Rubin-GPUs für Echtzeit-Inferenz-Workloads ergänzt.

Technischen Blog lesen

Inferenzleistung

Extrem niedrige Latenz mit hohem Durchsatz

Durch die Kombination von Rubin GPUs für Speicher mit hoher Bandbreite (HBM) und LPUs für statischen Arbeitsspeicher (SRAM) bietet NVIDIA Vera Rubin mit LPX eine neue Klasse der Inferenzleistung für Modelle mit Billionen Parametern und Millionen von Token im Kontext. Rubin-GPUs und LPUs werden mit Vera Rubin NVL72 bereitgestellt und beschleunigen die Decodierung, indem sie jede Ebene des KI-Modells für jedes Ausgabe-Token gemeinsam berechnen.

35-mal höherer Durchsatz für Modelle mit Billionen Parametern

Agentische Systeme verbrauchen bis zu 15-mal mehr Token als herkömmliche KI-Anwendungen. KI-Fabriken müssen ein hohes Token-Volumen und umfangreiche Kontextfenster mit geringer Latenz und effizienter Wirtschaftlichkeit gewährleisten. In Kombination mit LPX bietet Vera Rubin NVL72 einen bis zu 35-mal höheren Durchsatz pro Megawatt (MW) für Modelle mit Billionen Parametern.

TPS: Token pro Sekunde. Die voraussichtliche Leistung kann Änderungen unterliegen. Kostenlose Stufe (0 $): Qwen-3 Modell mit 235 Milliarden Parametern mit 32.000 Key-Value-(KV)-Cache-Token. Medium Tier ($3): Kimi K2.5 Modell mit 1 Billion Parametern mit 128.000 Token im KV-Cache. High Tier ($6): GPT-MoE-Modell mit 2 Billionen Parametern mit 128.000 im KV-Cache gespeicherten Token. Premium-Stufe (45 $) und Ultra-Stufe (150 $): GPT-MoE Modell mit 2 Billionen Parametern mit 400.000 im KV-Cache gespeicherten Token.

Eine neue Kategorie der Inferenz: 10-faches Umsatzpotential

Agenten sind Einheiten der Intelligenz, und Inferenz ist ihr Treibstoff. Um einen realen Mehrwert zu bieten, benötigen agentische Systeme hochwertige Token, die schneller sind und mehr Kontext speichern. Wenn LPX mit Vera Rubin kombiniert wird, können KI-Fabriken Premium-Token in großem Maßstab produzieren und 10-mal mehr Umsatz pro Watt erzielen.

Prognostizierter Umsatz auf Basis des Durchsatzes von KI-Fabriken pro Gigawatt und des geschätzten Kosten-per-Million-Token-Preismodells.

NVIDIA Groq 3 LPU-Inferenzbeschleuniger

Die NVIDIA Groq 3 LPU ist die nächste Generation der innovativen Sprachverarbeitungseinheit von Groq. Jedes LPX-Rack verfügt über 256 miteinander verbundene LPU-Beschleuniger, die zusammen mit der NVIDIA Vera Rubin-Plattform die Inferenz beschleunigen. Jeder LPU-Beschleuniger liefert 500 Megabyte (MB) SRAM, 150 Terabyte pro Sekunde (TB/s) SRAM-Bandbreite und 2,5 TB/s Scale-up-Bandbreite.

NVIDIA Groq 3 LPU-Inferenzbeschleuniger

Technologische Durchbrüche

Extremes Co-Design. Außergewöhnliche Ergebnisse.

Die Lösung NVIDIA Vera Rubin NVL72 wurde durch extremes Co-Design entwickelt und vereint sieben speziell entwickelte Chips in einem einzigen KI-Supercomputer.

Rack-Scale

In einem LPX-Rack arbeiten 256 LPU-Chips zusammen, um extreme Leistung zu bieten.

Fusion-Memory-Architektur

In jedem Rack bietet LPX 128 GB SRAM für die Verarbeitung mit geringer Latenz und 12 TB DDR5-Speicher für große Modelle und Workloads.

Hochgeschwindigkeits-SRAM

40 Petabyte pro Sekunde (PB/s) SRAM-Bandbreite pro Rack bieten eine geringe Latenz.

Massive Skalierung der Bandbreite

Direkte Chip-to-Chip-Verbindungen bieten 640 TB/s Scale-up-Bandbreite über das LPX-Rack hinweg für eine Chip-Kommunikation mit geringer Latenz.

Hochgeschwindigkeitsverbindung mit NVIDIA NVL72

Die Hochgeschwindigkeitsverbindungen von LPX zu NVL72 reduzieren die Latenz auf nahezu Null.

NVIDIA MGX ETL Rack

LPX nutzt das NVIDIA MGX™ ETL-Rack (Extract, Transform, and Load) und ermöglicht es Token-Fabriken, bei der Bereitstellung ihrer NVIDIA Vera Rubin-Plattform ein einziges universelles Rack einzuplanen.

Erste Schritte

Bleiben Sie auf dem Laufenden mit NVIDIA News

Melden Sie sich an, um aktuelle Nachrichten, Updates und mehr von NVIDIA zu erhalten.

Bleiben Sie auf dem Laufenden