Otimize o desempenho de workloads de IA na infraestrutura de IA da NVIDIA.
Visão Geral
O Benchmarking de Desempenho da NVIDIA é um pacote de ferramentas, receitas e serviços que eliminam a necessidade de adivinhar a medição de desempenho de workloads e infraestrutura de IA. O Benchmarking de Desempenho da NVIDIA fornece um meio padronizado e objetivo de medir o desempenho em plataformas, essencial para otimizar workloads de IA e acelerar os resultados.
Otimize o desempenho de workload de IA em qualquer infraestrutura acelerada da NVIDIA com o pacote de ferramentas, serviços e receitas do Benchmarking de Desempenho da NVIDIA.
Usando o Explorador de Desempenho, os usuários podem identificar a contagem ideal de GPUs que minimiza o tempo e os custos totais de treinamento. O objetivo é identificar o número certo de GPUs para uma determinada carga de trabalho que maximize a taxa de transferência e minimize despesas em todos os projetos e equipes.
Aproveite ao máximo seus ambientes de workloads de IA e libere todo o potencial da sua infraestrutura de IA com o Benchmarking de Desempenho da NVIDIA.
Determine qual plataforma pode oferecer o menor tempo de treinamento ou a escala de GPU desejada, e a que custo, usando dados de desempenho em tempo real e de ponta a ponta.
Ajuste e otimize suas workloads de IA de acordo com métricas de ponta a ponta adaptadas para o desempenho de aplicações modernas de IA generativa.
Avalie mais do que apenas as GPUs, incluindo software de infraestrutura, plataformas de nuvem e configurações de aplicações, para obter uma visão holística do desempenho da carga de trabalho.
Obtenha um meio padronizado e objetivo de medir o desempenho da plataforma e entenda o desempenho esperado para determinadas workloads ou casos de uso.
No MLPerf Inference v6.0 (abril de 2026), os sistemas com tecnologia de GPUs NVIDIA Blackwell Ultra (GB300 NVL72) ofereceram a maior taxa de processamento na mais ampla variedade de modelos e cenários. No DeepSeek-R1, o GB300 NVL72 ofereceram 2,5 milhões de tokens por segundo — uma taxa de processamento de tokens até 2,7 vezes maior em comparação com os envios iniciais do GB300 NVL72 apenas seis meses antes, como resultado das atualizações do software TensorRT-LLM.
Ao medir a relação custo-benefício da inferência de IA, é importante ir além dos preços de procesamento ou FLOPs por dólar, porque essas métricas oferecem uma visão incompleta. A métrica mais importante para a relação custo-benefício da inferência de IA é o custo por token, ou o desempenho por custo realmente entregue, especialmente em modelos MoE e de raciocínio. O NVIDIA GB300 NVL72 oferece inferência de IA a US$ 0,123 por milhão de tokens, com interatividade de 116 TPS/usuário usando o NVIDIA Dynamo e o TensorRT™-LLM: o menor custo por token entre as principais plataformas, de acordo com os benchmarks da SemiAnalysis InferenceX, em abril de 2026.
O NVIDIA Blackwell B200 atinge US$ 0,02 por milhão de tokens no GPT-OSS-120B usando o TensorRT-LLM, de acordo com benchmarks da SemiAnalysis InferenceX, em abril de 2026 — uma melhoria de 5 vezes em relação aos custos no dia de lançamento de US$ 0,11 por milhão de tokens, alcançada apenas por meio de otimização de software.
O NVIDIA B300 (Blackwell Ultra) foi projetado para atender às demandas crescentes de capacidade de processamento e memória da inferência de IA de contexto longo e raciocínio. Com um aumento de 1,5 vez no desempenho FP4 denso, duas vezes no desempenho de atenção e 1,5 vez mais memória HBM em comparação com o NVIDIA B200, o B300 é capaz de aumentar a taxa de processamento de raciocínio de IA para as maiores extensões de contexto. O GB300 NVL72 oferece inferência de IA a US$ 0,123 por milhão de tokens, com interatividade de 116 TPS/usuário usando o NVIDIA Dynamo e o TensorRT-LLM: o menor custo por token entre as principais plataformas, de acordo com os benchmarks da SemiAnalysis InferenceX, em abril de 2026.
Atualmente, existem alguns benchmarks de inferência de IA independentes de terceiros amplamente usados em todo o setor. O MLPerf Inference é o benchmark padrão do setor da MLCommons, medindo a taxa de processamento e a latência em cargas de trabalho padronizadas. O InferenceX, da SemiAnalysis, é o primeiro benchmark independente para medir o custo total de processamento em diversos modelos e cenários reais. O InferenceX v2 estende isso para avaliar a curva de fronteira de Pareto completa. Em abril de 2026, o NVIDIA Blackwell Ultra (GB300 NVL72) lidera em todos os três pacotes de benchmark.
Obtenha o desempenho ideal de workload de IA por TCO em parceria com a NVIDIA com benchmarks validados orientados por dados.
Acesse a documentação técnica para software modular que ajuda os parceiros a operar a infraestrutura de IA e oferecer serviços de IA.