El acelerador de inferencia para NVIDIA Vera Rubin.
Descripción
En el pasado, las arquitecturas de inferencia de IA ofrecían interactividad e inteligencia a expensas del rendimiento, o rendimiento e inteligencia a expensas de la interactividad. No se podían tener las tres. Los sistemas de agentes exigen más.
NVIDIA Groq 3 LPX es el acelerador de inferencia de NVIDIA Vera Rubin, diseñado para satisfacer las exigencias de baja latencia y gran contexto de los sistemas de agentes. Vera Rubin y LPX unen el rendimiento extremo de las GPU y las LPU NVIDIA Rubin a través de una arquitectura diseñada conjuntamente.
rendimiento de la inferencia
Al combinar las GPU Rubin para la memoria de gran ancho de banda (HBM) y las LPU para la memoria estática de acceso aleatorio (SRAM), NVIDIA Vera Rubin con LPX ofrece una nueva clase de rendimiento de inferencia para modelos de billones de parámetros y un contexto de millones de tókenes. Las GPU y las LPU Rubin se implementan con Vera Rubin NVL72 para mejorar la descodificación al computar conjuntamente cada capa del modelo de IA para cada token de salida.
Los sistemas de agentes consumen hasta 15 veces más tókenes que las aplicaciones de IA tradicionales. Las fábricas de IA deben ofrecer un gran volumen de tókenes y ventanas de contexto masivas con baja latencia y una economía eficiente. Cuando se combina con LPX, Vera Rubin NVL72 proporciona un rendimiento por megavatio (MW) hasta 35 veces superior en modelos con un billón de parámetros.
TPS: tókenes por segundo. El rendimiento proyectado está sujeto a cambios. Nivel gratuito (0 $): modelo Qwen-3 de 235 000 millones de parámetros con 32 000 tókenes de valor clave (KV) almacenados en caché. Nivel medio (3 $): modelo Kimi K2.5 de 1 billón de parámetros con 128 000 tókenes de valor clave almacenados en caché. Nivel alto (6 $): modelo GPT-MoE de 2 billones de parámetros con 128 000 tókenes de valor clave almacenados en caché. Niveles Prémium (45 $) y Ultra (150 $): modelo GPT-MoE de 2 billones de parámetros con 400 000 tókenes de valor clave almacenados en caché.
Los agentes son unidades de inteligencia y la inferencia es su combustible. Para ofrecer valor en el mundo real, los sistemas de agentes necesitan tókenes de alto valor que sean más rápidos e incluyan más contexto. Cuando LPX se combina con Vera Rubin, las fábricas de IA pueden producir tókenes prémium a escala, desbloqueando ingresos por vatio 10 veces superiores.
Ingresos proyectados basados en el rendimiento de la fábrica de IA por gigavatio y el modelo de precios escalonado de coste estimado por millón de tókenes.
La LPU NVIDIA Groq 3 es la próxima generación de la innovadora unidad de procesamiento lingüístico de Groq. Cada bastidor LPX cuenta con 256 aceleradores LPU interconectados, que se combinan con la plataforma NVIDIA Vera Rubin para hiperpotenciar la inferencia. Cada acelerador LPU proporciona 500 megabytes (MB) de SRAM, 150 terabytes por segundo (TB/s) de ancho de banda de SRAM y 2,5 TB/s de ancho de banda de escalado vertical.
Avances tecnológicos
Diseñado mediante un diseño conjunto extremo, el NVIDIA Vera Rubin NVL72 unifica siete chips diseñados específicamente en un solo superordenador de IA.
En un bastidor LPX, 256 chips de LPU funcionan conjuntamente para ofrecer un rendimiento extremo.
En cada bastidor, LPX proporciona 128 GB de SRAM para ofrecer un procesamiento de baja latencia y 12 TB de memoria DDR5 para modelos y cargas de trabajo de gran tamaño.
40 petabytes por segundo (PB/s) de ancho de banda de SRAM por bastidor producen una baja latencia.
Los enlaces directos de chip a chip proporcionan 640 TB/s de ancho de banda de escalado vertical en todo el bastidor LPX para lograr una comunicación de chips de baja latencia.
Las conexiones de alta velocidad de LPX con NVL72 reducen la latencia a casi cero.
LPX aprovecha el bastidor de extracción, transformación y carga (ETL) NVIDIA MGX™, lo que permite a las fábricas de tókenes planificar un solo bastidor universal en sus implementaciones de la plataforma NVIDIA Vera Rubin.
Suscríbase para obtener las últimas noticias, actualizaciones y mucho más de NVIDIA.