El acelerador de inferencia para NVIDIA Vera Rubin.
Descripción General
En el pasado, las arquitecturas de inferencia de IA ofrecían interactividad e inteligencia a costa del rendimiento, o rendimiento e inteligencia a costa de la interactividad. No era posible tener las tres cosas. Los sistemas de agentes exigen más.
NVIDIA Groq 3 LPX es el acelerador de inferencia para NVIDIA Vera Rubin, diseñado para cumplir con las demandas de baja latencia y contexto grande de los sistemas agénticos. Vera Rubin y LPX unen el desempeño extremo de las GPU y LPU NVIDIA Rubin a través de una arquitectura diseñada conjuntamente.
Rendimiento de inferencia
Al combinar las GPU Rubin para memoria de alto ancho de banda (HBM) y LPU para memoria estática de acceso aleatorio (SRAM), NVIDIA Vera Rubin con LPX ofrece una nueva clase de desempeño de inferencia para modelos de billones de parámetros y un contexto de millones de tokens. Las GPU y las LPU Rubin, implementadas con Vera Rubin NVL72, impulsan la decodificación al computar conjuntamente cada capa del modelo de IA para cada token de resultado.
Los sistemas basados en agentes consumen hasta 15 veces más tokens que las aplicaciones de IA tradicionales. Las fábricas de IA deben garantizar alto volumen de tokens y ventanas de contexto masivas con baja latencia y una economía eficiente. Combinada con LPX, Vera Rubin ofrece hasta 35x mayor rendimiento por megawatt para modelos con billones de parámetros.
Projected performance subject to change.
Los agentes son unidades de inteligencia, y la inferencia es su combustible. Para generar valor en el mundo real, los sistemas basados en agentes necesitan tokens de alto valor, más rápidos y con mayor capacidad de contexto. Cuando LPX se combina con Vera Rubin, las fábricas de IA pueden producir tokens premium a escala, desbloqueando 10 veces más ingresos por watt.
Projected revenue based on AI factory throughput per gigawatt and estimated cost-per-million-tokens tiered pricing model.
La LPU NVIDIA Groq 3 es la próxima generación de la innovadora unidad de procesamiento de lenguaje de Groq. Cada bastidor LPX cuenta con 256 aceleradores de LPU interconectados que, junto con la plataforma NVIDIA Vera Rubin, potencian la inferencia. Cada acelerador de LPU ofrece 500 megabytes (MB) de SRAM, 150 terabytes por segundo (TB/s) de ancho de banda SRAM y 2.5 TB/s de ancho de banda de escalabilidad.
Avances Tecnológicos
NVIDIA Vera Rubin NVL72, que se desarrolló mediante un diseño conjunto extremo, unifica siete chips diseñados específicamente en una sola supercomputadora de IA.
En un bastidor LPX, 256 chips LPU se unen para ofrecer un desempeño extremo.
En cada bastidor, LPX ofrece 128 GB de SRAM para procesamiento de baja latencia y 12 TB de memoria DDR5 para grandes modelos y cargas de trabajo.
40 petabytes por segundo (PB/s) de ancho de banda SRAM por bastidor ofrecen baja latencia.
Los enlaces directos de chip a chip ofrecen 640 TB/s de ancho de banda de escalabilidad en todo el bastidor LPX para la comunicación con chips de baja latencia.
Las conexiones de alta velocidad de LPX a NVL72 reducen la latencia a casi cero.
LPX aprovecha el bastidor NVIDIA MGX™ para extraer, transformar y cargar (ETL), lo que permite a las fábricas de tokens planificar un solo bastidor universal en sus implementaciones de la plataforma NVIDIA Vera Rubin.
Regístrese para recibir las últimas noticias, actualizaciones y más información de NVIDIA.