Der Inferenzbeschleuniger für NVIDIA Vera Rubin.
Überblick
In der Vergangenheit boten KI-Inferenz-Architekturen entweder Interaktivität und Intelligenz auf Kosten des Durchsatzes oder Durchsatz und Intelligenz auf Kosten der Interaktivität. Alle drei Eigenschaften gleichzeitig waren nicht möglich. Agentische Systeme erfordern mehr.
NVIDIA Groq 3 LPX ist der Inferenzbeschleuniger für NVIDIA Vera Rubin, der für die Anforderungen agentischer Systeme hinsichtlich geringer Latenz und großer Kontexte entwickelt wurde. Vera Rubin und LPX vereinen die extreme Leistungsfähigkeit der NVIDIA Rubin-GPUs und -LPUs durch eine gemeinsam entwickelte Architektur.
Inferenzleistung
Durch die Kombination von Rubin GPUs für Speicher mit hoher Bandbreite (HBM) und LPUs für statischen Arbeitsspeicher (SRAM) bietet NVIDIA Vera Rubin mit LPX eine neue Klasse der Inferenzleistung für Modelle mit Billionen Parametern und Millionen von Token im Kontext. Rubin-GPUs und LPUs werden mit Vera Rubin NVL72 bereitgestellt und beschleunigen die Decodierung, indem sie jede Ebene des KI-Modells für jedes Ausgabe-Token gemeinsam berechnen.
Agentische Systeme verbrauchen bis zu 15-mal mehr Token als herkömmliche KI-Anwendungen. KI-Fabriken müssen ein hohes Token-Volumen und umfangreiche Kontextfenster mit geringer Latenz und effizienter Wirtschaftlichkeit gewährleisten. In Kombination mit LPX bietet Vera Rubin einen bis zu 35-mal höheren Durchsatz pro Megawatt für Modelle mit Billionen Parametern.
Agenten sind Einheiten der Intelligenz, und Inferenz ist ihr Treibstoff. Um Auswirkungen in der realen Welt zu erzielen, benötigen agentische Systeme Token, die schnell und intelligent sind. Wenn LPX mit Vera Rubin kombiniert wird, erschließen der zusätzliche Durchsatz pro Watt und die Token-Leistung eine neue Ebene der Ultra-Premium-Inferenz mit Billionen von Parametern und Millionen von Kontexten und erweitern damit die Umsatzchancen für alle KI-Anbieter.
Die NVIDIA Groq 3 LPU ist die nächste Generation der innovativen Sprachverarbeitungseinheit von Groq. Jedes LPX-Rack verfügt über 256 miteinander verbundene LPU-Beschleuniger, die zusammen mit der NVIDIA Vera Rubin-Plattform die Inferenz beschleunigen. Jeder LPU-Beschleuniger liefert 500 Megabyte (MB) SRAM, 150 Terabyte pro Sekunde (TB/s) SRAM-Bandbreite und 2,5 TB/s Scale-up-Bandbreite.
Technologische Durchbrüche
Die Lösung NVIDIA Vera Rubin NVL72 wurde durch extremes Co-Design entwickelt und vereint sieben speziell entwickelte Chips in einem einzigen KI-Supercomputer.
In einem LPX-Rack arbeiten 256 LPU-Chips zusammen, um extreme Leistung zu bieten.
In jedem Rack bietet LPX 128 GB SRAM für die Verarbeitung mit geringer Latenz und 12 TB DDR5-Speicher für große Modelle und Workloads.
40 Petabyte pro Sekunde (PB/s) SRAM-Bandbreite pro Rack bieten eine geringe Latenz.
Direkte Chip-to-Chip-Verbindungen bieten 640 TB/s Scale-up-Bandbreite über das LPX-Rack hinweg für eine Chip-Kommunikation mit geringer Latenz.
Die Hochgeschwindigkeitsverbindungen von LPX zu NVL72 reduzieren die Latenz auf nahezu Null.
LPX nutzt das NVIDIA MGX™ ETL-Rack (Extract, Transform, and Load) und ermöglicht es Token-Fabriken, bei der Bereitstellung ihrer NVIDIA Vera Rubin-Plattform ein einziges universelles Rack einzuplanen.
Melden Sie sich an, um aktuelle Nachrichten, Updates und mehr von NVIDIA zu erhalten.