O acelerador de inferência para o NVIDIA Vera Rubin.
Visão Geral
No passado, as arquiteturas de inferência de IA ofereciam interatividade e inteligência ao custo da taxa de transferência ou taxa de transferência e inteligência ao custo da interatividade. Não era possível ter os três. Os sistemas baseados em agentes exigem mais.
O NVIDIA Groq 3 LPX é o acelerador de inferência para o NVIDIA Vera Rubin, projetado para atender às demandas de baixa latência e grande contexto de sistemas baseados em agentes. O Vera Rubin e o LPX unem o desempenho extremo das GPUs e LPUs NVIDIA Rubin por meio de uma arquitetura projetada em conjunto.
Desempenho de Inferência
Ao combinar GPUs Rubin para memória de alta largura de banda (HBM) e LPUs para memória estática de acesso aleatório (SRAM), o NVIDIA Vera Rubin com LPX oferece uma nova classe de desempenho de inferência para modelos de trilhões de parâmetros e contexto de milhões de tokens. Implantadas com o Vera Rubin NVL72, as GPUs e LPUs Rubin impulsionam a decodificação, computando conjuntamente todas as camadas do modelo de IA para todos os tokens de saída.
Os sistemas baseados em agentes consomem até 15 vezes mais tokens do que as aplicações de IA tradicionais. As fábricas de IA devem atender ao volume de tokens e grandes janelas de contexto com baixa latência e economia eficiente. Quando combinado com o LPX, o NVIDIA Vera Rubin NVL72 oferece uma taxa de transferência por megawatt (MW) até 35 vezes maior para modelos de trilhões de parâmetros.
TPS: tokens por segundo. Desempenho projetado sujeito a alterações. Nível gratuito (US$ 0): modelo Qwen-3 com 235 bilhões de parâmetros e 32 mil tokens de cache de chave-valor (KV). Nível médio (US$ 3): modelo Kimi K2,5 modelo com 1 trilhão de parâmetros e 128 mil tokens de cache de chave-valor (KV). Nível alto (US$ 6): modelo GPT-MoE com 2 trilhões de parâmetros e 128 mil tokens de cache de chave-valor (KV). Níveis Premium (US$ 45) e Ultra (US$ 150): modelo GPT-MoE com 2 trilhões de parâmetros e 400 mil tokens de cache de chave-valor (KV).
Agentes são unidades de inteligência, e a inferência é o seu combustível. Para gerar valor no mundo real, os sistemas baseados em agentes precisam de tokens de alto valor, mais rápidos e com maior capacidade de contexto. Quando o LPX é combinado com a Vera Rubin, as fábricas de IA podem produzir tokens premium em escala, desbloqueando 10 vezes mais receita por watt.
Receita projetada com base na taxa de processamento da fábrica de IA por gigawatt e em um modelo estimado de precificação por faixas de custo por milhão de tokens.
A LPU NVIDIA Groq 3 é a próxima geração da unidade de processamento de linguagem inovadora da Groq. Cada rack LPX apresenta 256 aceleradores de LPU interconectados que, juntamente com a plataforma NVIDIA Vera Rubin, superpotencializam a inferência. Cada acelerador de LPU oferece 500 megabytes (MB) de SRAM, 150 terabytes por segundo (TB/s) de largura de banda SRAM e largura de banda de escalabilidade de 2,5 TB/s.
Inovações tecnológicas
Criado por meio de co-design extremo, o NVIDIA Vera Rubin NVL72 unifica sete chips especialmente criados em um único supercomputador de IA.
Em um rack LPX, 256 chips LPU se juntam para oferecer desempenho extremo.
Em cada rack, o LPX oferece 128 GB de SRAM para processamento de baixa latência e 12 TB de memória DDR5 para grandes modelos e cargas de trabalho.
40 petabytes por segundo (PB/s) de largura de banda SRAM por rack oferece baixa latência.
Os links diretos de chip a chip oferecem 640 TB/s de largura de banda de escalabilidade em todo o rack LPX para comunicação de chip de baixa latência.
As conexões de alta velocidade da LPX com o NVL72 reduzem a latência para quase zero.
O LPX aproveita o rack NVIDIA MGX™ de extração, transformação e carregamento (ETL), permitindo que as fábricas de tokens planejem um único rack universal em suas implantações da plataforma NVIDIA Vera Rubin.
Inscreva-se para receber as últimas notícias, atualizações e novidades da NVIDIA.