O acelerador de inferência para o NVIDIA Vera Rubin.
Visão geral
No passado, as arquiteturas de inferência de IA ofereciam interatividade e inteligência ao custo da taxa de transferência ou taxa de transferência e inteligência ao custo da interatividade. Não era possível ter os três. Os sistemas baseados em agentes exigem mais.
O NVIDIA Groq 3 LPX é o acelerador de inferência para o NVIDIA Vera Rubin, projetado para atender às demandas de baixa latência e grande contexto de sistemas baseados em agentes. O Vera Rubin e o LPX unem o desempenho extremo das GPUs e LPUs NVIDIA Rubin por meio de uma arquitetura projetada em conjunto.
Desempenho de Inferência
Ao combinar GPUs Rubin para memória de alta largura de banda (HBM) e LPUs para memória estática de acesso aleatório (SRAM), o NVIDIA Vera Rubin com LPX oferece uma nova classe de desempenho de inferência para modelos de trilhões de parâmetros e contexto de milhões de tokens. Implantadas com o Vera Rubin NVL72, as GPUs e LPUs Rubin impulsionam a decodificação, computando conjuntamente todas as camadas do modelo de IA para todos os tokens de saída.
Os sistemas baseados em agentes consomem até 15 vezes mais tokens do que as aplicações de IA tradicionais. As fábricas de IA devem atender ao volume de tokens e grandes janelas de contexto com baixa latência e economia eficiente. Quando combinada com o LPX, o NVIDIA Vera Rubin oferece uma taxa de transferência por megawatt até 35 vezes maior para modelos de trilhões de parâmetros.
Os agentes são unidades de inteligência e a inferência é seu combustível. Para oferecer impacto no mundo real, os sistemas baseados em agentes precisam de tokens rápidos e inteligentes. Quando o LPX é combinado com o Vera Rubin, a taxa de transferência adicional por watt e o desempenho de tokens desbloqueiam um novo nível de inferência ultra-premium, de trilhões de parâmetros e de milhões de contextos, expandindo a oportunidade de receita para todos os provedores de IA.
A LPU NVIDIA Groq 3 é a próxima geração da unidade de processamento de linguagem inovadora da Groq. Cada rack LPX apresenta 256 aceleradores de LPU interconectados que, juntamente com a plataforma NVIDIA Vera Rubin, superpotencializam a inferência. Cada acelerador de LPU oferece 500 megabytes (MB) de SRAM, 150 terabytes por segundo (TB/s) de largura de banda SRAM e largura de banda de escalabilidade de 2,5 TB/s.
Inovações Tecnológicas
Criado por meio de co-design extremo, o NVIDIA Vera Rubin NVL72 unifica sete chips especialmente criados em um único supercomputador de IA.
Em um rack LPX, 256 chips LPU se juntam para oferecer desempenho extremo.
Em cada rack, o LPX oferece 128 GB de SRAM para processamento de baixa latência e 12 TB de memória DDR5 para grandes modelos e cargas de trabalho.
40 petabytes por segundo (PB/s) de largura de banda SRAM por rack oferece baixa latência.
Os links diretos de chip a chip oferecem 640 TB/s de largura de banda de escalabilidade em todo o rack LPX para comunicação de chip de baixa latência.
As conexões de alta velocidade da LPX com o NVL72 reduzem a latência para quase zero.
O LPX aproveita o rack NVIDIA MGX™ de extração, transformação e carregamento (ETL), permitindo que as fábricas de tokens planejem um único rack universal em suas implantações da plataforma NVIDIA Vera Rubin.
Inscreva-se para receber as últimas notícias, atualizações e novidades da NVIDIA.