Der Inferenzbeschleuniger für NVIDIA Vera Rubin.
Überblick
In der Vergangenheit boten KI-Inferenz-Architekturen entweder Interaktivität und Intelligenz auf Kosten des Durchsatzes oder Durchsatz und Intelligenz auf Kosten der Interaktivität. Alle drei Eigenschaften gleichzeitig waren nicht möglich. Agentische Systeme erfordern mehr.
NVIDIA Groq 3 LPX ist der Inferenzbeschleuniger für NVIDIA Vera Rubin, der für die Anforderungen agentischer Systeme in Bezug auf geringe Latenz und große Kontexte entwickelt wurde. Vera Rubin und LPX vereinen die extreme Leistungsfähigkeit der NVIDIA Rubin-GPUs und -LPUs durch eine gemeinsam entwickelte Architektur.
Inferenzleistung
Durch die Kombination von Rubin GPUs für Speicher mit hoher Bandbreite (HBM) und LPUs für statischen Arbeitsspeicher (SRAM) bietet NVIDIA Vera Rubin mit LPX eine neue Klasse der Inferenzleistung für Modelle mit Billionen Parametern und Millionen von Token im Kontext. Rubin-GPUs und LPUs werden mit Vera Rubin NVL72 bereitgestellt und beschleunigen die Decodierung, indem sie jede Ebene des KI-Modells für jedes Ausgabe-Token gemeinsam berechnen.
Agentische Systeme verbrauchen bis zu 15-mal mehr Token als herkömmliche KI-Anwendungen. KI-Fabriken müssen ein hohes Token-Volumen und umfangreiche Kontextfenster mit geringer Latenz und effizienter Wirtschaftlichkeit gewährleisten. In Kombination mit LPX bietet Vera Rubin NVL72 einen bis zu 35-mal höheren Durchsatz pro Megawatt (MW) für Modelle mit Billionen Parametern.
TPS: Token pro Sekunde. Die voraussichtliche Leistung kann Änderungen unterliegen. Kostenlose Stufe (0 $): Qwen-3 Modell mit 235 Milliarden Parametern mit 32.000 Key-Value-(KV)-Cache-Token. Medium Tier ($3): Kimi K2.5 Modell mit 1 Billion Parametern mit 128.000 Token im KV-Cache. High Tier ($6): GPT-MoE-Modell mit 2 Billionen Parametern mit 128.000 im KV-Cache gespeicherten Token. Premium-Stufe (45 $) und Ultra-Stufe (150 $): GPT-MoE Modell mit 2 Billionen Parametern mit 400.000 im KV-Cache gespeicherten Token.
Agenten sind Einheiten der Intelligenz, und Inferenz ist ihr Treibstoff. Um einen realen Mehrwert zu bieten, benötigen agentische Systeme hochwertige Token, die schneller sind und mehr Kontext speichern. Wenn LPX mit Vera Rubin kombiniert wird, können KI-Fabriken Premium-Token in großem Maßstab produzieren und 10-mal mehr Umsatz pro Watt erzielen.
Prognostizierter Umsatz auf Basis des Durchsatzes von KI-Fabriken pro Gigawatt und des geschätzten Kosten-per-Million-Token-Preismodells.
Die NVIDIA Groq 3 LPU ist die nächste Generation der innovativen Sprachverarbeitungseinheit von Groq. Jedes LPX-Rack verfügt über 256 miteinander verbundene LPU-Beschleuniger, die zusammen mit der NVIDIA Vera Rubin-Plattform die Inferenz beschleunigen. Jeder LPU-Beschleuniger liefert 500 Megabyte (MB) SRAM, 150 Terabyte pro Sekunde (TB/s) SRAM-Bandbreite und 2,5 TB/s Scale-up-Bandbreite.
Technologische Durchbrüche
Die Lösung NVIDIA Vera Rubin NVL72 wurde durch extremes Co-Design entwickelt und vereint sieben speziell entwickelte Chips in einem einzigen KI-Supercomputer.
In einem LPX-Rack arbeiten 256 LPU-Chips zusammen, um extreme Leistung zu bieten.
In jedem Rack bietet LPX 128 GB SRAM für die Verarbeitung mit geringer Latenz und 12 TB DDR5-Speicher für große Modelle und Workloads.
40 Petabyte pro Sekunde (PB/s) SRAM-Bandbreite pro Rack bieten eine geringe Latenz.
Direkte Chip-to-Chip-Verbindungen bieten 640 TB/s Scale-up-Bandbreite über das LPX-Rack hinweg für eine Chip-Kommunikation mit geringer Latenz.
Die Hochgeschwindigkeitsverbindungen von LPX zu NVL72 reduzieren die Latenz auf nahezu Null.
LPX nutzt das NVIDIA MGX™ ETL-Rack (Extract, Transform, and Load) und ermöglicht es Token-Fabriken, bei der Bereitstellung ihrer NVIDIA Vera Rubin-Plattform ein einziges universelles Rack einzuplanen.
Melden Sie sich an, um aktuelle Nachrichten, Updates und mehr von NVIDIA zu erhalten.