NVIDIA Groq 3 LPX

O acelerador de inferência para o NVIDIA Vera Rubin.

Visão Geral
Desempenho
Inovações tecnológicas
Comece agora

Visão Geral
Desempenho
Inovações tecnológicas
Comece agora

Visão Geral

A Velocidade Encontra a Escala

No passado, as arquiteturas de inferência de IA ofereciam interatividade e inteligência ao custo da taxa de transferência ou taxa de transferência e inteligência ao custo da interatividade. Não era possível ter os três. Os sistemas baseados em agentes exigem mais.

O NVIDIA Groq 3 LPX é o acelerador de inferência para o NVIDIA Vera Rubin, projetado para atender às demandas de baixa latência e grande contexto de sistemas baseados em agentes. O Vera Rubin e o LPX unem o desempenho extremo das GPUs e LPUs NVIDIA Rubin por meio de uma arquitetura projetada em conjunto.

O NVIDIA Vera Rubin Abre a Fronteira da IA Baseada em Agentes

A plataforma NVIDIA Vera Rubin inclui sete novos chips em produção total para escalar as principais fábricas de IA do mundo.

Leia o Comunicado à Imprensa

Por Dentro do NVIDIA Groq 3 LPX: O Sétimo Chip da Plataforma NVIDIA Vera Rubin

O NVIDIA Groq 3 LPX estende a fábrica de IA com geração de tokens determinista e de baixa latência que complementa as GPUs NVIDIA Rubin para cargas de trabalho de inferência em tempo real.

Leia o Blog Técnico

Desempenho de Inferência

Latência Extremamente Baixa com Taxa de Transferência Elevada

Ao combinar GPUs Rubin para memória de alta largura de banda (HBM) e LPUs para memória estática de acesso aleatório (SRAM), o NVIDIA Vera Rubin com LPX oferece uma nova classe de desempenho de inferência para modelos de trilhões de parâmetros e contexto de milhões de tokens. Implantadas com o Vera Rubin NVL72, as GPUs e LPUs Rubin impulsionam a decodificação, computando conjuntamente todas as camadas do modelo de IA para todos os tokens de saída.

Taxa de Processamento 35 vezes Maior para Modelos com Trilhões de Parâmetros

Os sistemas baseados em agentes consomem até 15 vezes mais tokens do que as aplicações de IA tradicionais. As fábricas de IA devem atender ao volume de tokens e grandes janelas de contexto com baixa latência e economia eficiente. Quando combinado com o LPX, o NVIDIA Vera Rubin NVL72 oferece uma taxa de transferência por megawatt (MW) até 35 vezes maior para modelos de trilhões de parâmetros.

TPS: tokens por segundo. Desempenho projetado sujeito a alterações. Nível gratuito (US$ 0): modelo Qwen-3 com 235 bilhões de parâmetros e 32 mil tokens de cache de chave-valor (KV). Nível médio (US$ 3): modelo Kimi K2,5 modelo com 1 trilhão de parâmetros e 128 mil tokens de cache de chave-valor (KV). Nível alto (US$ 6): modelo GPT-MoE com 2 trilhões de parâmetros e 128 mil tokens de cache de chave-valor (KV). Níveis Premium (US$ 45) e Ultra (US$ 150): modelo GPT-MoE com 2 trilhões de parâmetros e 400 mil tokens de cache de chave-valor (KV).

Uma Nova Categoria de Inferência: Oportunidade de Receita 10 Vezes Maior

Agentes são unidades de inteligência, e a inferência é o seu combustível. Para gerar valor no mundo real, os sistemas baseados em agentes precisam de tokens de alto valor, mais rápidos e com maior capacidade de contexto. Quando o LPX é combinado com a Vera Rubin, as fábricas de IA podem produzir tokens premium em escala, desbloqueando 10 vezes mais receita por watt.

Receita projetada com base na taxa de processamento da fábrica de IA por gigawatt e em um modelo estimado de precificação por faixas de custo por milhão de tokens.

Acelerador de Inferência NVIDIA Groq 3 LPU

A LPU NVIDIA Groq 3 é a próxima geração da unidade de processamento de linguagem inovadora da Groq. Cada rack LPX apresenta 256 aceleradores de LPU interconectados que, juntamente com a plataforma NVIDIA Vera Rubin, superpotencializam a inferência. Cada acelerador de LPU oferece 500 megabytes (MB) de SRAM, 150 terabytes por segundo (TB/s) de largura de banda SRAM e largura de banda de escalabilidade de 2,5 TB/s.

Acelerador de Inferência NVIDIA Groq 3 LPU

Inovações tecnológicas

Co-Design Extremo. Resultados Extraordinários.

Criado por meio de co-design extremo, o NVIDIA Vera Rubin NVL72 unifica sete chips especialmente criados em um único supercomputador de IA.

Escala de Rack

Em um rack LPX, 256 chips LPU se juntam para oferecer desempenho extremo.

Arquitetura de Memória de Fusão

Em cada rack, o LPX oferece 128 GB de SRAM para processamento de baixa latência e 12 TB de memória DDR5 para grandes modelos e cargas de trabalho.

SRAM de Alta Velocidade

40 petabytes por segundo (PB/s) de largura de banda SRAM por rack oferece baixa latência.

Largura de Banda de Escalabilidade Massiva

Os links diretos de chip a chip oferecem 640 TB/s de largura de banda de escalabilidade em todo o rack LPX para comunicação de chip de baixa latência.

Conexão de Alta Velocidade com NVIDIA NVL72

As conexões de alta velocidade da LPX com o NVL72 reduzem a latência para quase zero.

Rack NVIDIA MGX ETL

O LPX aproveita o rack NVIDIA MGX™ de extração, transformação e carregamento (ETL), permitindo que as fábricas de tokens planejem um único rack universal em suas implantações da plataforma NVIDIA Vera Rubin.

Comece agora

Mantenha-se por Dentro das Notícias da NVIDIA

Inscreva-se para receber as últimas notícias, atualizações e novidades da NVIDIA.

Fique por Dentro