NVIDIA Groq 3 LPX

El acelerador de inferencia para NVIDIA Vera Rubin.

Descripción General

La velocidad se une a la escala

En el pasado, las arquitecturas de inferencia de IA ofrecían interactividad e inteligencia a costa del rendimiento, o rendimiento e inteligencia a costa de la interactividad. No era posible tener las tres cosas. Los sistemas de agentes exigen más.

NVIDIA Groq 3 LPX es el acelerador de inferencia para NVIDIA Vera Rubin, diseñado para cumplir con las demandas de baja latencia y contexto grande de los sistemas agénticos. Vera Rubin y LPX unen el desempeño extremo de las GPU y LPU NVIDIA Rubin a través de una arquitectura diseñada conjuntamente.

NVIDIA Vera Rubin Abre la Frontera de la IA de Agentes

La plataforma NVIDIA Vera Rubin incluye siete chips nuevos en plena producción para escalar las fábricas de IA más grandes del mundo.

Dentro de NVIDIA Groq 3 LPX: El Séptimo Chip de la Plataforma NVIDIA Vera Rubin

NVIDIA Groq 3 LPX extiende la fábrica de IA con una generación de tokens deterministas y de baja latencia que complementa las GPU NVIDIA Rubin para cargas de trabajo de inferencia en tiempo real.

Rendimiento de inferencia

Latencia Extremadamente Baja con Desempeño Masivo

Al combinar las GPU Rubin para memoria de alto ancho de banda (HBM) y LPU para memoria estática de acceso aleatorio (SRAM), NVIDIA Vera Rubin con LPX ofrece una nueva clase de desempeño de inferencia para modelos de billones de parámetros y un contexto de millones de tokens. Las GPU y las LPU Rubin, implementadas con Vera Rubin NVL72, impulsan la decodificación al computar conjuntamente cada capa del modelo de IA para cada token de resultado.

35 Veces Mayor Rendimiento para Modelos con Billones de Parámetros

Los sistemas basados en agentes consumen hasta 15 veces más tokens que las aplicaciones de IA tradicionales. Las fábricas de IA deben garantizar alto volumen de tokens y ventanas de contexto masivas con baja latencia y una economía eficiente. Combinada con LPX, Vera Rubin ofrece hasta 35x mayor rendimiento por megawatt para modelos con billones de parámetros.

Projected performance subject to change.


Una Nueva Categoría de Inferencia: Oportunidad de Ingresos 10 Veces Mayor

Los agentes son unidades de inteligencia, y la inferencia es su combustible. Para generar valor en el mundo real, los sistemas basados en agentes necesitan tokens de alto valor, más rápidos y con mayor capacidad de contexto. Cuando LPX se combina con Vera Rubin, las fábricas de IA pueden producir tokens premium a escala, desbloqueando 10 veces más ingresos por watt.

Projected revenue based on AI factory throughput per gigawatt and estimated cost-per-million-tokens tiered pricing model.

Acelerador de Inferencia LPU NVIDIA Groq 3

La LPU NVIDIA Groq 3 es la próxima generación de la innovadora unidad de procesamiento de lenguaje de Groq. Cada bastidor LPX cuenta con 256 aceleradores de LPU interconectados que, junto con la plataforma NVIDIA Vera Rubin, potencian la inferencia. Cada acelerador de LPU ofrece 500 megabytes (MB) de SRAM, 150 terabytes por segundo (TB/s) de ancho de banda SRAM y 2.5 TB/s de ancho de banda de escalabilidad.

Acelerador de Inferencia LPU NVIDIA Groq 3

La LPU NVIDIA Groq 3 es la próxima generación de la innovadora unidad de procesamiento de lenguaje de Groq. Cada bastidor LPX cuenta con 256 aceleradores de LPU interconectados que, junto con la plataforma NVIDIA Vera Rubin, potencian la inferencia. Cada acelerador de LPU ofrece 500 megabytes (MB) de SRAM, 150 terabytes por segundo (TB/s) de ancho de banda SRAM y 2.5 TB/s de ancho de banda de escalabilidad.

Avances Tecnológicos

Diseño Conjunto Extremo Resultados Extraordinarios.

NVIDIA Vera Rubin NVL72, que se desarrolló mediante un diseño conjunto extremo, unifica siete chips diseñados específicamente en una sola supercomputadora de IA.

Escala de Bastidor

En un bastidor LPX, 256 chips LPU se unen para ofrecer un desempeño extremo.

Arquitectura de Memoria de Fusión

En cada bastidor, LPX ofrece 128 GB de SRAM para procesamiento de baja latencia y 12 TB de memoria DDR5 para grandes modelos y cargas de trabajo.

SRAM de Alta Velocidad

40 petabytes por segundo (PB/s) de ancho de banda SRAM por bastidor ofrecen baja latencia.

Ancho de Banda de Escalabilidad Masiva

Los enlaces directos de chip a chip ofrecen 640 TB/s de ancho de banda de escalabilidad en todo el bastidor LPX para la comunicación con chips de baja latencia.

Conexión de Alta Velocidad con NVIDIA NVL72

Las conexiones de alta velocidad de LPX a NVL72 reducen la latencia a casi cero.

Bastidor NVIDIA MGX ETL

LPX aprovecha el bastidor NVIDIA MGX™ para extraer, transformar y cargar (ETL), lo que permite a las fábricas de tokens planificar un solo bastidor universal en sus implementaciones de la plataforma NVIDIA Vera Rubin.

Comenzar

Manténgase al Día con las Noticias de NVIDIA

Regístrese para recibir las últimas noticias, actualizaciones y más información de NVIDIA.