NVIDIA Groq 3 LPX

El acelerador de inferencia para NVIDIA Vera Rubin.

Descripción
Rendimiento
Avances tecnológicos
Empezar

Descripción
Rendimiento
Avances tecnológicos
Empezar

Descripción

Cuando hay de todo: velocidad y escala

En el pasado, las arquitecturas de inferencia de IA ofrecían interactividad e inteligencia a expensas del rendimiento, o rendimiento e inteligencia a expensas de la interactividad. No se podían tener las tres. Los sistemas de agentes exigen más.

NVIDIA Groq 3 LPX es el acelerador de inferencia de NVIDIA Vera Rubin, diseñado para satisfacer las exigencias de baja latencia y gran contexto de los sistemas de agentes. Vera Rubin y LPX unen el rendimiento extremo de las GPU y las LPU NVIDIA Rubin a través de una arquitectura diseñada conjuntamente.

NVIDIA Vera Rubin derriba la frontera de la IA de agentes

La plataforma NVIDIA Vera Rubin incluye siete nuevos chips en producción completa para escalar las fábricas de IA más grandes del mundo.

Leer la nota de prensa

En las entrañas de NVIDIA Groq 3 LPX: El séptimo chip de la plataforma NVIDIA Vera Rubin

NVIDIA Groq 3 LPX amplía la fábrica de IA con la generación de tókenes deterministas y de baja latencia que complementa las GPU NVIDIA Rubin para cargas de trabajo de inferencia en tiempo real.

Leer el blog técnico

rendimiento de la inferencia

Latencia extremadamente baja con una capacidad de proceso masiva

Al combinar las GPU Rubin para la memoria de gran ancho de banda (HBM) y las LPU para la memoria estática de acceso aleatorio (SRAM), NVIDIA Vera Rubin con LPX ofrece una nueva clase de rendimiento de inferencia para modelos de billones de parámetros y un contexto de millones de tókenes. Las GPU y las LPU Rubin se implementan con Vera Rubin NVL72 para mejorar la descodificación al computar conjuntamente cada capa del modelo de IA para cada token de salida.

Rendimiento 35 veces superior en modelos con billones de parámetros

Los sistemas de agentes consumen hasta 15 veces más tókenes que las aplicaciones de IA tradicionales. Las fábricas de IA deben ofrecer un gran volumen de tókenes y ventanas de contexto masivas con baja latencia y una economía eficiente. Cuando se combina con LPX, Vera Rubin NVL72 proporciona un rendimiento por megavatio (MW) hasta 35 veces superior en modelos con un billón de parámetros.

TPS: tókenes por segundo. El rendimiento proyectado está sujeto a cambios. Nivel gratuito (0 $): modelo Qwen-3 de 235 000 millones de parámetros con 32 000 tókenes de valor clave (KV) almacenados en caché. Nivel medio (3 $): modelo Kimi K2.5 de 1 billón de parámetros con 128 000 tókenes de valor clave almacenados en caché. Nivel alto (6 $): modelo GPT-MoE de 2 billones de parámetros con 128 000 tókenes de valor clave almacenados en caché. Niveles Prémium (45 $) y Ultra (150 $): modelo GPT-MoE de 2 billones de parámetros con 400 000 tókenes de valor clave almacenados en caché.

Una nueva categoría de inferencia: oportunidad de multiplicar los ingresos por 10

Los agentes son unidades de inteligencia y la inferencia es su combustible. Para ofrecer valor en el mundo real, los sistemas de agentes necesitan tókenes de alto valor que sean más rápidos e incluyan más contexto. Cuando LPX se combina con Vera Rubin, las fábricas de IA pueden producir tókenes prémium a escala, desbloqueando ingresos por vatio 10 veces superiores.

Ingresos proyectados basados en el rendimiento de la fábrica de IA por gigavatio y el modelo de precios escalonado de coste estimado por millón de tókenes.

Acelerador de inferencia NVIDIA Groq 3 LPU

La LPU NVIDIA Groq 3 es la próxima generación de la innovadora unidad de procesamiento lingüístico de Groq. Cada bastidor LPX cuenta con 256 aceleradores LPU interconectados, que se combinan con la plataforma NVIDIA Vera Rubin para hiperpotenciar la inferencia. Cada acelerador LPU proporciona 500 megabytes (MB) de SRAM, 150 terabytes por segundo (TB/s) de ancho de banda de SRAM y 2,5 TB/s de ancho de banda de escalado vertical.

Acelerador de inferencia NVIDIA Groq 3 LPU

Avances tecnológicos

Diseño conjunto extremo. Resultados extraordinarios.

Diseñado mediante un diseño conjunto extremo, el NVIDIA Vera Rubin NVL72 unifica siete chips diseñados específicamente en un solo superordenador de IA.

Escala de bastidor

En un bastidor LPX, 256 chips de LPU funcionan conjuntamente para ofrecer un rendimiento extremo.

Arquitectura de memoria de fusión

En cada bastidor, LPX proporciona 128 GB de SRAM para ofrecer un procesamiento de baja latencia y 12 TB de memoria DDR5 para modelos y cargas de trabajo de gran tamaño.

SRAM de alta velocidad

40 petabytes por segundo (PB/s) de ancho de banda de SRAM por bastidor producen una baja latencia.

Ancho de banda de escalado vertical masivo

Los enlaces directos de chip a chip proporcionan 640 TB/s de ancho de banda de escalado vertical en todo el bastidor LPX para lograr una comunicación de chips de baja latencia.

Conexión de alta velocidad con NVIDIA NVL72

Las conexiones de alta velocidad de LPX con NVL72 reducen la latencia a casi cero.

Bastidor MGX ETL de NVIDIA

LPX aprovecha el bastidor de extracción, transformación y carga (ETL) NVIDIA MGX™, lo que permite a las fábricas de tókenes planificar un solo bastidor universal en sus implementaciones de la plataforma NVIDIA Vera Rubin.

Empezar

Manténgase al día sobre las noticias de NVIDIA

Suscríbase para obtener las últimas noticias, actualizaciones y mucho más de NVIDIA.

Manténgase al corriente