Soluções de Inferência de IA

Plataforma de Inferência da NVIDIA

Oferecendo o menor custo por token e o melhor custo total de propriedade (TCO) para impulsionar as fábricas de IA mais eficientes, lucrativas e com melhor desempenho.

Comece agora

Leia a Série | Benchmarks de Desempenho | Para Desenvolvedores

Visão geral
Desempenho
Benefícios
Plataforma
Histórias de Clientes
Recursos
Próximos Passos

Visão geral
Desempenho
Benefícios
Plataforma
Histórias de Clientes
Recursos
Próximos Passos

Comece agora

Visão geral

Domine a economia de tokens de IA com inferência full-stack da NVIDIA

A inferência de IA, como experimentamos a IA por meio de chatbots, copilotos e ferramentas criativas, está escalando em um ritmo cada vez mais rápido. A adoção dos usuários está acelerando, enquanto os tokens de IA gerados por interação, impulsionados por workflows baseados em agentes, raciocínio de longo prazo e modelos de mistura de módulos especialistas (MoE), aumentam em paralelo.

Para permitir a inferência nessa escala maciça, a NVIDIA oferece arquitetura em escala de data center em um ritmo anual. Nosso codesign extremo de hardware e software oferece saltos de ordem de magnitude no desempenho e o menor custo de token, tornando as experiências de IA avançadas economicamente viáveis em escala.

O NVIDIA GB300 NVL72 oferece 50 vezes mais tokens por watt e um custo de token 35 vezes menor em relação ao Hopper™, maximizando a receita com o mesmo orçamento de energia e impulsionando margens de lucro mais altas. Otimizações contínuas de software extraem o desempenho máximo em escala de chips, racks e Data Centers, melhorando ainda mais o retorno sobre o investimento ao longo do tempo.

Repensando o TCO da IA: por que o custo por token é a única métrica que importa

O custo por token é a métrica que define o custo total de propriedade (TCO) da inferência, e o NVIDIA Blackwell oferece o menor custo de token do setor.

Leia o Blog

Os principais provedores de inferência alcançam o menor custo de tokens no NVIDIA Blackwell

Baseten, Deep Infra, Fireworks IA e Together IA estão reduzindo o custo por token em todos os setores com stacks de inferência otimizados executados na plataforma NVIDIA Blackwell.

Leia o Blog

Desempenho de inferência reduz o custo dos tokens

Quais são os fatores que reduzem o custo dos tokens?

Muitas empresas que avaliam a infraestrutura de IA se concentram no numerador: o custo por GPU por hora. Para implantações de cloud, essa é a taxa por hora paga a um provedor de Cloud; para implantações locais, é o custo efetivo por hora derivado da amortização da infraestrutura própria. A chave real para reduzir o custo dos tokens, no entanto, está no denominador: maximizar o volume de tokens entregue.

Esse denominador tem duas implicações para os negócios.

1. Minimizar o custo dos tokens: quando esse aumento na produção de tokens é refletido na equação de custos, ele reduz o custo por token, o que aumenta a margem de lucro em cada interação atendida.

2. Maximizar a receita: mais tokens entregues por segundo também significa mais tokens por megawatt e mais inteligência para usar em produtos e serviços com tecnologia de IA, gerando mais receita com o mesmo investimento em infraestrutura.

O custo por token é a principal métrica para o TCO da infraestrutura de IA

Olhando apenas para o custo de computação, a plataforma NVIDIA Blackwell parece custar aproximadamente o dobro do que o NVIDIA Hopper™, mas o custo de computação não diz nada sobre o volume de tokens que o investimento compra. Uma análise de meros FLOPS por dólar sugere vantagens em dobro para o NVIDIA Blackwell em comparação com a arquitetura NVIDIA Hopper.

No entanto, o resultado real difere em ordens de magnitude: o NVIDIA Blackwell oferece uma saída de tokens por megawatt 50x maior do que o Hopper, resultando em um custo por milhão de tokens quase 35x menor.

Métrica	NVIDIA Hopper (HGX H200)	NVIDIA Blackwell (GB300 NVL72)	NVIDIA Blackwell em relação ao Hopper
Custo por GPU por hora (US$)	US$ 1,41	US$ 2,65	2x
FLOPS por Dólar (PFLOPS)	2,8	5,6	2x
Tokens por segundo por GPU	90	6.000	65x
Tokens por segundo por MW	54K	2,8M	50x
Custo por milhão de tokens (US$)	US$ 4,20	US$ 0,12	35x menor

Benefícios

O mais alto desempenho maximiza a receita

Com codesign extremo de hardware e software, o NVIDIA GB300 NVL72 oferece 50 vezes mais tokens por watt do que o Hopper, maximizando a receita das fábricas de IA com o mesmo orçamento de energia. Otimizações contínuas de software extraem o desempenho máximo em escala de chips, racks e Data Centers, melhorando ainda mais o retorno sobre o investimento ao longo do tempo.

O menor custo de tokens expande as margens de lucro

O sistema NVIDIA GB300 NVL72 oferece custo por token 35 vezes menor em relação à plataforma NVIDIA Hopper, gerando margens de lucro mais altas para fábricas de IA. A cada geração, as melhorias de desempenho superam os custos de infraestrutura, criando melhor economia para permitir experiências de IA avançadas em larga escala.

Stack Completo Otimiza Todos os Modelos e Casos de Uso

A NVIDIA é compatível com todos os modelos em IA generativa, ML tradicional, computação científica, biologia e IA física. Desde aplicações em tempo real sensíveis à latência até o processamento em lote de alto rendimento, a NVIDIA oferece o melhor desempenho para todos os casos de uso. A plataforma fornece o máximo de flexibilidade e programabilidade para escolher a configuração ideal para workloads e requisitos empresariais em evolução.

Integração Nativa Acelera a Implantação

O software pronto para produção da NVIDIA, incluindo Dynamo e TensorRT™ LLM, e a integração nativa com os principais frameworks, como PyTorch, vLLM, SGLang e llm-d, oferecem o stack de inferência de IA mais robusto. À medida que as arquiteturas de modelos e técnicas de inferência evoluem rapidamente, o stack da NVIDIA garante o caminho mais rápido da inovação à produção.

Plataforma

Codesign Extremo de Hardware-Software

Hardware poderoso sem orquestração inteligente desperdiça potencial; ótimo software sem hardware rápido significa desempenho de inferência lento. A plataforma de inferência da NVIDIA oferece uma solução de stack completo continuamente otimizada com computação, rede, armazenamento e software co-projetados para permitir o mais alto desempenho em diversas cargas de trabalho.

Explore algumas das principais inovações de hardware e software da NVIDIA.

NVIDIA Vera Rubin NVL72

A plataforma NVIDIA Vera Rubin oferece desempenho por watt dez vezes melhor e custo por token dez vezes menor do que a Blackwell. Por meio do codesign extremo, a plataforma emparelha GPUs Rubin para pré-preenchimento de contexto em grande escala com o LPX para decodificação rápida, eliminando a compensação entre velocidade e escala.

Explore Sete Novos Chips, Um Supercomputador de IA

NVIDIA Grace Blackwell Ultra NVL72

O GB300 NVL72 apresenta 72 GPUs B300 conectadas com 130 TB/s NVLink™, para que possam se comunicar perfeitamente umas com as outras e desbloquear modelos em grande escala com mistura de especialistas.

Experimente o desempenho superior em processamento lógico de IA sobre o GB200 NVL72

NVIDIA Dynamo

O NVIDIA Dynamo é um framework de código aberto de serviço de inferência distribuída para implantar modelos em ambientes de vários nós em escala de fábricas de IA. Ela simplifica o serviço distribuído, desagregando a inferência, otimizando o roteamento e estendendo a memória por meio do cache de dados para camadas de armazenamento econômicas.

Implante perfeitamente em vários nós com o Dynamo

TensorRT LLM

O TensorRT LLM é uma biblioteca de código aberto para inferência de LLM de alto desempenho e em tempo real continuamente otimizada em GPUs da NVIDIA. Com um tempo de execução modular de Python, autoria nativa de PyTorch e uma API de produção estável, ele é otimizado para maximizar a taxa de transferência, minimizar custos e oferecer experiências rápidas ao usuário.

Otimize a inferência com o TensorRT LLM

Decodificação dos Paretos de Desempenho

Você já se perguntou como os trade-offs complexos de IA se traduzem em resultados reais? Explore diferentes pontos das curvas de desempenho abaixo para ver em primeira mão como o codesign extremo de hardware e software torna o NVIDIA Blackwell Ultra a escolha mais eficiente, lucrativa e rentável.

TPS / usuário

–

TPS / MW

–

Experiência de Chat Simulado

DeepSeek R1 ISL = 32K, OSL = 8K, GB300 NVL72 com desagregação FP4 Dynamo. H100 com agrupamento em tempo real FP8. Desempenho projetado sujeito a alterações.

Como cada configuração se traduz em experiências reais de usuários? Explore as curvas sozinho ou com a orientação do TJ clicando em "Explore com o TJ" e veja-as ganharem vida no bate-papo simulado à direita.

Explore Mais com o Configurador de IA do NVIDIA Dynamo

Histórias de Clientes

Como os Líderes do Setor Estão Gerando Inovação com Inferência de IA

Mais Histórias de Clientes

Amdocs

Acelere o Desempenho de IA Generativa e Reduza os Custos

Leia como a Amdocs criou a amAIz, uma plataforma de IA generativa específica de domínio para empresas de telecomunicações, usando os microsserviços de inferência NVIDIA DGX™ Cloud e NVIDIA NIM para melhorar a latência, aumentar a precisão e reduzir custos.

Leia o Estudo de Caso

Snapchat

Aprimorando as Compras de Roupas com IA

Saiba como o Snapchat aprimorou a experiência de compra de roupas e o reconhecimento óptico de caracteres com emojis usando o Servidor de Inferência Triton para dimensionar, reduzir custos e acelerar o tempo de produção.

Leia o Estudo de Caso

Amazon

Acelere a Satisfação do Cliente

Descubra como a Amazon melhorou a satisfação do cliente ao tornar sua inferência 5 vezes mais rápida com o TensorRT.

Leia o Estudo de Caso

Recursos

Últimas Novidades em Recursos de Inferência de IA

Blogs
Sessões
Treinamento
Vídeos

Veja Mais Sessões

Treinamento para profissionais de infraestrutura de IA

Aprenda a implantar, executar e otimizar a infraestrutura de IA.

Explore Agora

Saiba mais sobre a implantação de fábrica de IA

Se sua equipe é responsável por configurar switches e validar o cabeamento, ou instalar o software de gerenciamento de clusters e orquestrar cargas de trabalho de GPU, este treinamento fornece a orientação estruturada para fazer isso corretamente.

Veja o Caminho de Aprendizagem

Introdução à Inferência: Como Executar Modelos de IA em uma GPU

Saiba como configurar e executar inferência de IA em GPUs no Google Cloud. Esse caminho orienta você no pipeline de inferência, formatos de modelos e métricas de desempenho por meio de exemplos práticos.

Comece agora

Veja Mais Treinamentos

Codesign extremo para tokenômica e IA eficientes em escala

À medida que a IA muda para o raciocínio em tempo real, o principal desafio é reduzir o custo por token, o custo de geração de inteligência, ao mesmo tempo em que lida com grandes cargas de trabalho de modelos como o MoE. Alcançar isso requer a otimização rigorosa de todo o Stack, tornando o design de sistemas de ponta a ponta a maneira mais eficaz de escalar a IA eficiente e de alto ROI.

Assista ao Vídeo

Por que o custo por token é a única métrica de que você precisa para o TCO de IA

Hoje, os data centers de IA são fábricas de tokens. O custo por token captura o desempenho de ponta a ponta em GPUs, CPUs, redes, software e ecossistemas, tornando-o o principal motivador da lucratividade e escalabilidade reais em IA. A NVIDIA oferece o menor custo por token e o mais alto desempenho por watt, maximizando a receita da fábrica de IA.

Assista ao Vídeo

UneeQ

Como a DeepL criou uma infraestrutura de IA para IA de linguagem em tempo real

A DeepL está aproveitando a inferência NVIDIA TensorRT LLM e NVFP4 em sistemas NVIDIA GB200 NVL72 para treinar modelos Mixture of Experts (MoE), avançando sua arquitetura de modelos para melhorar a eficiência durante o treinamento e a inferência, estabelecendo novos benchmarks para desempenho em IA.

Assista ao Vídeo

Veja Mais Vídeos

Perguntas Frequentes sobre o Custo Total de Propriedade (TCO) da Plataforma de Inferência da NVIDIA

O GB300 NVL72 oferece inferência de IA a US$ 0,123 por milhão de tokens, com interatividade de 116 TPS/usuário usando o NVIDIA Dynamo e o TensorRT™-LLM: o menor custo por token entre as principais plataformas, de acordo com os benchmarks da SemiAnalysis InferenceX, em abril de 2026.

O NVIDIA Blackwell Ultra (GB300 NVL72) oferece uma taxa de processamento por megawatt até 50x maior e um custo por token até 35x menor do que o NVIDIA Hopper™ para cargas de trabalho baseadas em agentes de baixa latência, por meio de codesign de hardware e software, de acordo com os benchmarks da SemiAnalysis InferenceX (1º trimestre de 2026). O GB300 NVL72 combina 72 GPUs Blackwell Ultra com 288 GB HBM3e por GPU em um único sistema em escala de rack, todos interconectados por meio do NVIDIA NVLink™ Switch, em uma malha NVLink unificada que oferece 130 TB/s de largura de banda. Esta arquitetura minimiza a latência de comunicação all-to-all, permitindo que modelos Mixture-of-Experts (MoE) em larga escala, como o DeepSeek-R1, escalem o paralelismo de especialistas com eficiência em até 72 GPUs simultaneamente.

Apenas analisar os preços de computação ou FLOPs por dólar fornece uma visão incompleta do TCO de inferência. A métrica mais importante para o TCO de inferência de IA é o custo por token ou o preço-desempenho realmente oferecido. O GB300 NVL72 oferece inferência de IA a US$ 0,123 por milhão de tokens, com interatividade de 116 TPS/usuário usando o NVIDIA Dynamo e o TensorRT-LLM: o menor custo por token entre as principais plataformas, de acordo com os benchmarks da SemiAnalysis InferenceX, em abril de 2026.

Ao avaliar o TCO de inferência, é importante considerar modelos Mixture-of-Experts (MoE) e de raciocínio em larga escala, como o DeepSeek-R1. Quase todos os LLMs de código fechado e aberto mais recentes adotaram arquiteturas MoE e de raciocínio, devido à sua inteligência e eficiência superiores. Ao avaliar esses modelos para o TCO de inferência, você garante que sua análise seja representativa do que provavelmente será implantado.

O Stack de software TensorRT-LLM e Dynamo da NVIDIA oferece melhorias contínuas nos custos de inferência, sem alterações de hardware. O custo por milhão de tokens do NVIDIA Blackwell B200 caiu de US$ 0,11 no lançamento para US$ 0,02 no GPT-OSS-120B em dois meses, de acordo com os benchmarks da SemiAnalysis InferenceX em abril de 2026, uma melhoria de 5 vezes apenas com software. Cada versão do TensorRT-LLM geralmente oferece ganhos de taxa de processamento por meio de fusão de kernels, melhorias de quantificação e otimizações de agendamento.

Próximos passos: Saiba Mais sobre o TCO de inferência de IA

Que tal começar agora?

Explore tudo aquilo de que você precisa para começar a desenvolver sua aplicação de IA, incluindo a documentação mais recente, tutoriais, blogs técnicos e muito mais.

Comece a Desenvolver Comece a Criar

Encontre o Hardware Certo para seus Workloads de Inferência

As soluções de data center da NVIDIA estão disponíveis por meio de parceiros selecionados da NVIDIA Partner Network (NPN). Explore opções flexíveis e acessíveis para acessar as tecnologias de data center mais recentes da NVIDIA por meio de nossa rede de parceiros.

Navegue pelo NVIDIA Marketplace

Receba as Últimas Notícias Sobre a Inferência de IA da NVIDIA

Inscreva-se para receber as últimas notícias, atualizações e muito mais sobre inferência de IA da NVIDIA.

Fique por Dentro

Plataforma de Inferência da NVIDIA

Domine a economia de tokens de IA com inferência full-stack da NVIDIA

Repensando o TCO da IA: por que o custo por token é a única métrica que importa

Os principais provedores de inferência alcançam o menor custo de tokens no NVIDIA Blackwell

Desempenho de inferência reduz o custo dos tokens

Quais são os fatores que reduzem o custo dos tokens?

O custo por token é a principal métrica para o TCO da infraestrutura de IA

O mais alto desempenho maximiza a receita

O menor custo de tokens expande as margens de lucro

Stack Completo Otimiza Todos os Modelos e Casos de Uso

Integração Nativa Acelera a Implantação

Codesign Extremo de Hardware-Software

NVIDIA Vera Rubin NVL72

NVIDIA Grace Blackwell Ultra NVL72

NVIDIA Dynamo

TensorRT LLM

Decodificação dos Paretos de Desempenho

Como os Líderes do Setor Estão Gerando Inovação com Inferência de IA

Acelere o Desempenho de IA Generativa e Reduza os Custos

Aprimorando as Compras de Roupas com IA

Acelere a Satisfação do Cliente

Últimas Novidades em Recursos de Inferência de IA

Treinamento para profissionais de infraestrutura de IA

Saiba mais sobre a implantação de fábrica de IA

Introdução à Inferência: Como Executar Modelos de IA em uma GPU

Codesign extremo para tokenômica e IA eficientes em escala

Por que o custo por token é a única métrica de que você precisa para o TCO de IA

Como a DeepL criou uma infraestrutura de IA para IA de linguagem em tempo real

Perguntas Frequentes sobre o Custo Total de Propriedade (TCO) da Plataforma de Inferência da NVIDIA

Qual é o menor TCO ou custo por token para inferência de IA em 2026?

Como o NVIDIA Blackwell Ultra reduz o custo total de propriedade (TCO) para inferência em 35x?

Como posso calcular o custo total de propriedade (TCO) para inferência de IA?

Quais modelos devo observar ao avaliar o TCO de inferência?

Como o software ajuda a reduzir o custo dos tokens ao longo do tempo?

Que tal começar agora?

Encontre o Hardware Certo para seus Workloads de Inferência

Receba as Últimas Notícias Sobre a Inferência de IA da NVIDIA

Receba as últimas novidades da NVIDIA sobre Inferência de IA