El acelerador de inferencia para NVIDIA Vera Rubin.
Descripción
En el pasado, las arquitecturas de inferencia de IA ofrecían interactividad e inteligencia a expensas del rendimiento, o rendimiento e inteligencia a expensas de la interactividad. No se podían tener las tres. Los sistemas de agentes exigen más.
NVIDIA Groq 3 LPX es el acelerador de inferencia de NVIDIA Vera Rubin, diseñado para satisfacer las exigencias de baja latencia y gran contexto de los sistemas de agentes. Vera Rubin y LPX unen el rendimiento extremo de las GPU y las LPU NVIDIA Rubin a través de una arquitectura diseñada conjuntamente.
rendimiento de la inferencia
Al combinar las GPU Rubin para la memoria de gran ancho de banda (HBM) y las LPU para la memoria estática de acceso aleatorio (SRAM), NVIDIA Vera Rubin con LPX ofrece una nueva clase de rendimiento de inferencia para modelos de billones de parámetros y un contexto de millones de tókenes. Las GPU y las LPU Rubin se implementan con Vera Rubin NVL72 para mejorar la descodificación al computar conjuntamente cada capa del modelo de IA para cada token de salida.
Los sistemas de agentes consumen hasta 15 veces más tókenes que las aplicaciones de IA tradicionales. Las fábricas de IA deben ofrecer un gran volumen de tókenes y ventanas de contexto masivas con baja latencia y una economía eficiente. Cuando se combina con LPX, Vera Rubin proporciona un rendimiento por megavatio hasta 35 veces superior para modelos con billones de parámetros.
Los agentes son unidades de inteligencia y la inferencia es su combustible. Para tener un impacto en el mundo real, los sistemas de agentes necesitan tókenes rápidos e inteligentes. Cuando se combina LPX con Vera Rubin, el rendimiento adicional por vatio y el rendimiento de los tókenes desbloquean un nuevo nivel de inferencia ultraprémium, con billones de parámetros y millones de contexto, lo que amplía las oportunidades de ingresos para todos los proveedores de IA.
La LPU NVIDIA Groq 3 es la próxima generación de la innovadora unidad de procesamiento lingüístico de Groq. Cada bastidor LPX cuenta con 256 aceleradores LPU interconectados, que se combinan con la plataforma NVIDIA Vera Rubin para hiperpotenciar la inferencia. Cada acelerador LPU proporciona 500 megabytes (MB) de SRAM, 150 terabytes por segundo (TB/s) de ancho de banda de SRAM y 2,5 TB/s de ancho de banda de escalado vertical.
Avances tecnológicos
Diseñado mediante un diseño conjunto extremo, el NVIDIA Vera Rubin NVL72 unifica siete chips diseñados específicamente en un solo superordenador de IA.
En un bastidor LPX, 256 chips de LPU funcionan conjuntamente para ofrecer un rendimiento extremo.
En cada bastidor, LPX proporciona 128 GB de SRAM para ofrecer un procesamiento de baja latencia y 12 TB de memoria DDR5 para modelos y cargas de trabajo de gran tamaño.
40 petabytes por segundo (PB/s) de ancho de banda de SRAM por bastidor producen una baja latencia.
Los enlaces directos de chip a chip proporcionan 640 TB/s de ancho de banda de escalado vertical en todo el bastidor LPX para lograr una comunicación de chips de baja latencia.
Las conexiones de alta velocidad de LPX con NVL72 reducen la latencia a casi cero.
LPX aprovecha el bastidor de extracción, transformación y carga (ETL) NVIDIA MGX™, lo que permite a las fábricas de tókenes planificar un solo bastidor universal en sus implementaciones de la plataforma NVIDIA Vera Rubin.
Suscríbase para obtener las últimas noticias, actualizaciones y mucho más de NVIDIA.