Visão geral
A inferência de IA, como experimentamos a IA por meio de chatbots, copilotos e ferramentas criativas, está escalando em um ritmo cada vez mais rápido. A adoção dos usuários está acelerando, enquanto os tokens de IA gerados por interação, impulsionados por workflows baseados em agentes, raciocínio de longo prazo e modelos de mistura de módulos especialistas (MoE), aumentam em paralelo.
Para permitir a inferência nessa escala maciça, a NVIDIA oferece arquitetura em escala de data center em um ritmo anual. Nosso codesign extremo de hardware e software oferece saltos de ordem de magnitude no desempenho e o menor custo de token, tornando as experiências de IA avançadas economicamente viáveis em escala.
O NVIDIA GB300 NVL72 oferece 50 vezes mais tokens por watt e um custo de token 35 vezes menor em relação ao Hopper™, maximizando a receita com o mesmo orçamento de energia e impulsionando margens de lucro mais altas. Otimizações contínuas de software extraem o desempenho máximo em escala de chips, racks e Data Centers, melhorando ainda mais o retorno sobre o investimento ao longo do tempo.
Muitas empresas que avaliam a infraestrutura de IA se concentram no numerador: o custo por GPU por hora. Para implantações de cloud, essa é a taxa por hora paga a um provedor de Cloud; para implantações locais, é o custo efetivo por hora derivado da amortização da infraestrutura própria. A chave real para reduzir o custo dos tokens, no entanto, está no denominador: maximizar o volume de tokens entregue.
Esse denominador tem duas implicações para os negócios.
1. Minimizar o custo dos tokens: quando esse aumento na produção de tokens é refletido na equação de custos, ele reduz o custo por token, o que aumenta a margem de lucro em cada interação atendida.
2. Maximizar a receita: mais tokens entregues por segundo também significa mais tokens por megawatt e mais inteligência para usar em produtos e serviços com tecnologia de IA, gerando mais receita com o mesmo investimento em infraestrutura.
Olhando apenas para o custo de computação, a plataforma NVIDIA Blackwell parece custar aproximadamente o dobro do que o NVIDIA Hopper™, mas o custo de computação não diz nada sobre o volume de tokens que o investimento compra. Uma análise de meros FLOPS por dólar sugere vantagens em dobro para o NVIDIA Blackwell em comparação com a arquitetura NVIDIA Hopper.
No entanto, o resultado real difere em ordens de magnitude: o NVIDIA Blackwell oferece uma saída de tokens por megawatt 50x maior do que o Hopper, resultando em um custo por milhão de tokens quase 35x menor.
| Métrica | NVIDIA Hopper (HGX H200) |
NVIDIA Blackwell (GB300 NVL72) |
NVIDIA Blackwell em relação ao Hopper |
| Custo por GPU por hora (US$) | US$ 1,41 | US$ 2,65 | 2x |
| FLOPS por Dólar (PFLOPS) | 2,8 | 5,6 | 2x |
| Tokens por segundo por GPU | 90 | 6.000 | 65x |
| Tokens por segundo por MW | 54K | 2,8M | 50x |
| Custo por milhão de tokens (US$) | US$ 4,20 | US$ 0,12 | 35x menor |
Benefícios
Com codesign extremo de hardware e software, o NVIDIA GB300 NVL72 oferece 50 vezes mais tokens por watt do que o Hopper, maximizando a receita das fábricas de IA com o mesmo orçamento de energia. Otimizações contínuas de software extraem o desempenho máximo em escala de chips, racks e Data Centers, melhorando ainda mais o retorno sobre o investimento ao longo do tempo.
O sistema NVIDIA GB300 NVL72 oferece custo por token 35 vezes menor em relação à plataforma NVIDIA Hopper, gerando margens de lucro mais altas para fábricas de IA. A cada geração, as melhorias de desempenho superam os custos de infraestrutura, criando melhor economia para permitir experiências de IA avançadas em larga escala.
A NVIDIA é compatível com todos os modelos em IA generativa, ML tradicional, computação científica, biologia e IA física. Desde aplicações em tempo real sensíveis à latência até o processamento em lote de alto rendimento, a NVIDIA oferece o melhor desempenho para todos os casos de uso. A plataforma fornece o máximo de flexibilidade e programabilidade para escolher a configuração ideal para workloads e requisitos empresariais em evolução.
O software pronto para produção da NVIDIA, incluindo Dynamo e TensorRT™ LLM, e a integração nativa com os principais frameworks, como PyTorch, vLLM, SGLang e llm-d, oferecem o stack de inferência de IA mais robusto. À medida que as arquiteturas de modelos e técnicas de inferência evoluem rapidamente, o stack da NVIDIA garante o caminho mais rápido da inovação à produção.
Plataforma
Hardware poderoso sem orquestração inteligente desperdiça potencial; ótimo software sem hardware rápido significa desempenho de inferência lento. A plataforma de inferência da NVIDIA oferece uma solução de stack completo continuamente otimizada com computação, rede, armazenamento e software co-projetados para permitir o mais alto desempenho em diversas cargas de trabalho.
Explore algumas das principais inovações de hardware e software da NVIDIA.
Histórias de Clientes
Recursos
O GB300 NVL72 oferece inferência de IA a US$ 0,123 por milhão de tokens, com interatividade de 116 TPS/usuário usando o NVIDIA Dynamo e o TensorRT™-LLM: o menor custo por token entre as principais plataformas, de acordo com os benchmarks da SemiAnalysis InferenceX, em abril de 2026.
O NVIDIA Blackwell Ultra (GB300 NVL72) oferece uma taxa de processamento por megawatt até 50x maior e um custo por token até 35x menor do que o NVIDIA Hopper™ para cargas de trabalho baseadas em agentes de baixa latência, por meio de codesign de hardware e software, de acordo com os benchmarks da SemiAnalysis InferenceX (1º trimestre de 2026). O GB300 NVL72 combina 72 GPUs Blackwell Ultra com 288 GB HBM3e por GPU em um único sistema em escala de rack, todos interconectados por meio do NVIDIA NVLink™ Switch, em uma malha NVLink unificada que oferece 130 TB/s de largura de banda. Esta arquitetura minimiza a latência de comunicação all-to-all, permitindo que modelos Mixture-of-Experts (MoE) em larga escala, como o DeepSeek-R1, escalem o paralelismo de especialistas com eficiência em até 72 GPUs simultaneamente.
Apenas analisar os preços de computação ou FLOPs por dólar fornece uma visão incompleta do TCO de inferência. A métrica mais importante para o TCO de inferência de IA é o custo por token ou o preço-desempenho realmente oferecido. O GB300 NVL72 oferece inferência de IA a US$ 0,123 por milhão de tokens, com interatividade de 116 TPS/usuário usando o NVIDIA Dynamo e o TensorRT-LLM: o menor custo por token entre as principais plataformas, de acordo com os benchmarks da SemiAnalysis InferenceX, em abril de 2026.
Ao avaliar o TCO de inferência, é importante considerar modelos Mixture-of-Experts (MoE) e de raciocínio em larga escala, como o DeepSeek-R1. Quase todos os LLMs de código fechado e aberto mais recentes adotaram arquiteturas MoE e de raciocínio, devido à sua inteligência e eficiência superiores. Ao avaliar esses modelos para o TCO de inferência, você garante que sua análise seja representativa do que provavelmente será implantado.
O Stack de software TensorRT-LLM e Dynamo da NVIDIA oferece melhorias contínuas nos custos de inferência, sem alterações de hardware. O custo por milhão de tokens do NVIDIA Blackwell B200 caiu de US$ 0,11 no lançamento para US$ 0,02 no GPT-OSS-120B em dois meses, de acordo com os benchmarks da SemiAnalysis InferenceX em abril de 2026, uma melhoria de 5 vezes apenas com software. Cada versão do TensorRT-LLM geralmente oferece ganhos de taxa de processamento por meio de fusão de kernels, melhorias de quantificação e otimizações de agendamento.
Próximos passos: Saiba Mais sobre o TCO de inferência de IA