El acelerador de inferencia para NVIDIA Vera Rubin.
Descripción General
En el pasado, las arquitecturas de inferencia de IA ofrecían interactividad e inteligencia a costa del rendimiento, o rendimiento e inteligencia a costa de la interactividad. No era posible tener las tres cosas. Los sistemas de agentes exigen más.
NVIDIA Groq 3 LPX es el acelerador de inferencia para NVIDIA Vera Rubin, diseñado para cumplir con las demandas de baja latencia y contexto grande de los sistemas agénticos. Vera Rubin y LPX unen el desempeño extremo de las GPU y LPU NVIDIA Rubin a través de una arquitectura diseñada conjuntamente.
Rendimiento de inferencia
Al combinar las GPU Rubin para memoria de alto ancho de banda (HBM) y LPU para memoria estática de acceso aleatorio (SRAM), NVIDIA Vera Rubin con LPX ofrece una nueva clase de desempeño de inferencia para modelos de billones de parámetros y un contexto de millones de tokens. Las GPU y las LPU Rubin, implementadas con Vera Rubin NVL72, impulsan la decodificación al computar conjuntamente cada capa del modelo de IA para cada token de resultado.
Los sistemas de agentes consumen hasta 15 veces más tokens que las aplicaciones de IA tradicionales. Las fábricas de IA deben ofrecer un volumen de tokens y ventanas contextuales masivas con baja latencia y economía eficiente. Cuando se combina con LPX, Vera Rubin NVL72 ofrece un rendimiento por megavatio (MW) hasta 35 veces mayor para modelos de billones de parámetros.
TPS: tokens por segundo. El desempeño proyectado puede cambiar. Nivel gratuito ($0): Modelo Qwen-3 de 235 mil millones de parámetros con 32 mil tokens en caché de clave-valor (KV). Nivel medio ($3): Modelo Kimi K2.5 de 1 billón de parámetros con 128 mil tokens en caché KV. Nivel alto ($6): Modelo GPT-MoE de 2 billones de parámetros con 128 mil tokens en caché KV. Niveles Premium ($45) y Ultra ($150): Modelo GPT-MoE de 2 billones de parámetros con 400 mil tokens en caché KV.
Los agentes son unidades de inteligencia, y la inferencia es su combustible. Para generar valor en el mundo real, los sistemas basados en agentes necesitan tokens de alto valor, más rápidos y con mayor capacidad de contexto. Cuando LPX se combina con Vera Rubin, las fábricas de IA pueden producir tokens premium a escala, desbloqueando 10 veces más ingresos por vatio.
Ingresos proyectados basados en el rendimiento de las fábricas de IA por gigavatio y el modelo de precios escalonado de costo por millón de tokens.
La LPU NVIDIA Groq 3 es la próxima generación de la innovadora unidad de procesamiento de lenguaje de Groq. Cada bastidor LPX cuenta con 256 aceleradores de LPU interconectados que, junto con la plataforma NVIDIA Vera Rubin, potencian la inferencia. Cada acelerador de LPU ofrece 500 megabytes (MB) de SRAM, 150 terabytes por segundo (TB/s) de ancho de banda SRAM y 2.5 TB/s de ancho de banda de escalabilidad.
Avances Tecnológicos
NVIDIA Vera Rubin NVL72, que se desarrolló mediante un diseño conjunto extremo, unifica siete chips diseñados específicamente en una sola supercomputadora de IA.
En un bastidor LPX, 256 chips LPU se unen para ofrecer un desempeño extremo.
En cada bastidor, LPX ofrece 128 GB de SRAM para procesamiento de baja latencia y 12 TB de memoria DDR5 para grandes modelos y cargas de trabajo.
40 petabytes por segundo (PB/s) de ancho de banda SRAM por bastidor ofrecen baja latencia.
Los enlaces directos de chip a chip ofrecen 640 TB/s de ancho de banda de escalabilidad en todo el bastidor LPX para la comunicación con chips de baja latencia.
Las conexiones de alta velocidad de LPX a NVL72 reducen la latencia a casi cero.
LPX aprovecha el bastidor NVIDIA MGX™ para extraer, transformar y cargar (ETL), lo que permite a las fábricas de tokens planificar un solo bastidor universal en sus implementaciones de la plataforma NVIDIA Vera Rubin.
Regístrese para recibir las últimas noticias, actualizaciones y más información de NVIDIA.