Os benchmarks MLPerf™, desenvolvidos pela MLCommons, um consórcio de líderes de IA do mundo acadêmico, laboratórios de pesquisa e do setor, são projetados para fornecer avaliações imparciais de desempenho de treinamento e inferência para hardware, software e serviços. Todos são realizados sob condições prescritas. Para se manter na vanguarda das tendências do setor, o MLPerf continua a evoluir, realizando novos testes em intervalos regulares e adicionando novas cargas de trabalho que representam o estado da arte em IA.
O MLPerf Inference v5.1 mede o desempenho de inferência em 10 modelos de IA diferentes, incluindo uma variedade de grandes modelos de linguagem (LLMs), um LLM de raciocínio, IA generativa de texto para imagem, recomendação, texto para fala e rede neural de gráficos (GNN).
O MLPerf Training v5.1 mede o tempo para treinar sete modelos diferentes, cobrindo os seguintes casos de uso: LLMs (pré-treinamento e ajuste fino), geração de imagens, GNN, detecção de objetos e recomendação.
A plataforma da NVIDIA alcançou o tempo mais rápido para treinar em todos os sete benchmarks do MLPerf Training v5.1. O Blackwell Ultra fez sua estreia, oferecendo grandes avanços no pré-treinamento e ajuste fino de modelos de linguagem, habilitados por aprimoramentos arquitetônicos e métodos de treinamento NVFP4 inovadores que aumentam o desempenho e atendem aos requisitos de precisão do MLPerf. A NVIDIA também aumentou o desempenho do pré-treinamento do Blackwell Llama 3.1 405B em escala em 2,7 vezes por meio de uma combinação de duas vezes a escala e grandes aumentos no desempenho por GPU habilitada pelo NVFP4. A NVIDIA também estabeleceu recordes de desempenho em ambos os benchmarks recém-adicionados, Llama 3.1 8B e FLUX.1, continuando a manter recordes de desempenho em benchmarks existentes de recomendação, detecção de objetos e redes neurais de gráficos.
Resultados do MLPerf™ Training v5.0 e v5.1 recuperados de www.mlcommons.org em 12 de novembro de 2025, a partir das seguintes entradas: 4.1-0050, 5.0-0014, 5.0-0067, 5.0-0076, 5.1-0058, 5.1-0060. O nome e o logotipo da MLPerf™ são marcas comerciais da MLCommons Association nos Estados Unidos e em outros países. Todos os direitos reservados. O uso não autorizado é estritamente proibido. Veja www.mlcommons.org para mais informações.
A plataforma da NVIDIA ofereceu o tempo mais rápido para treinar em todos os benchmarks do MLPerf Training v5.1, com inovações em chips, sistemas e software, permitindo a liderança sustentada no desempenho de treinamento, como mostrado nos dados de desempenho padrão do setor e revisados por pares.
| Benchmark | Time to Train |
|---|---|
| LLM Pretraining (Llama 3.1 405B) | 10 minutes |
| LLM Pretraining (Llama 3.1 8B) | 5.2 minutes |
| LLM Fine-Tuning (Llama 2 70B LoRA) | 0.40 minutes |
| Image Generation (FLUX.1) | 12.5 minutes |
| Recommender (DLRM-DCNv2) | 0.71 minutes |
| Graph Neural Network (R-GAT) | 0.84 minutes |
| Object Detection (RetinaNet) | 1.4 minutes |
Resultados do MLPerf™ Training v5.0 e v5.1 recuperados de www.mlcommons.org em 12 de novembro de 2025, a partir das seguintes entradas: 5.0-0082, 5.1-0002, 5.1-0004, 5.1-0060, 5.1-0070, 5.1-0072. O nome e o logotipo da MLPerf™ são marcas comerciais da MLCommons Association nos Estados Unidos e em outros países. Todos os direitos reservados. O uso não autorizado é estritamente proibido. Veja www.mlcommons.org para mais informações.
A plataforma NVIDIA estabeleceu muitos novos recordes na Inferência MLPerf v5.1, incluindo o novo raciocínio desafiador DeepSeek-R1 e os testes Interativos Llama 3.1 405B, e continua a deter todos os recordes de desempenho de Inferência MLPerf por GPU na categoria de Data Center. O sistema em escala de rack GB300 NVL72, baseado na arquitetura de GPU NVIDIA Blackwell Ultra, fez sua estreia apenas seis meses após o NVIDIA Blackwell, estabelecendo novos recordes no benchmark de inferência de raciocínio DeepSeek-R1. E o NVIDIA Dynamo também fez sua estréia nessa rodada, com seu serviço desagregado, aumentando significativamente o desempenho de cada GPU Blackwell no Llama 3.1 405B Interactive. O desempenho e o ritmo de inovação da plataforma NVIDIA permitem maior inteligência, maior potencial de receita de fábricas de IA e menor custo por milhão de tokens.
| Benchmark | Offline | Server | Interactive |
|---|---|---|---|
| DeepSeek-R1 | 5,842 Tokens/Second | 2,907 Tokens/Second | * |
| Llama 3.1 405B | 224 Tokens/Second | 170 Tokens/Second | 138 Tokens/Second |
| Llama 2 70B 99.9% | 12,934 Tokens/Second | 12,701 Tokens/Second | 7,856 Tokens/Second |
| Llama 3.1 8B | 18,370 Tokens/Second | 16,099 Tokens/Second | 15,284 Tokens/Second |
| Mistral 8x7B | 16,099 Tokens/Second | 16,131 Tokens/Second | * |
| Stable Diffusion XL | 4.07 Samples/Second | 3.59 Queries/Second | * |
| DLRMv2 99% | 87,228 Tokens/Second | 80,515 Tokens/Second | * |
| DLRMv2 99.9% | 48,666 Tokens/Second | 46,259 Tokens/Second | * |
| RetinaNet | 1,875 samples/second/GPU | 1,801 queries/second/GPU | * |
| Whisper | 5,667 Tokens/Second | * | * |
| Graph Neural Network | 81,404 Tokens/Second | * | * |
* Cenários que não fazem parte dos pacotes de benchmark de Inferência MLPerf v5.0 ou v5.1.
MLPerf Inference v5.0 e v5.1, Divisão Fechada. Resultados recuperados de www.mlcommons.org em 9 de setembro de 2025. A plataforma NVIDIA resulta das seguintes entradas: 5.0-0072, 5.1-0007, 5.1-0053, 5.1-0079, 5.1-0028, 5.1-0062, 5.1-0086, 5.1-0073, 5.1-0008, 5.1-0070, 5.1-0046, 5.1-0009, 5.1-0060, 5.1-0072. 5.1-0071, 5.1-0069 Desempenho por chip derivado dividindo o rendimento total pelo número de chips relatados. O desempenho por chip não é uma métrica principal da Inferência MLPerf v5.0 ou v5.1. O nome e o logotipo da MLPerf são marcas comerciais registradas e não registradas da MLCommons Association nos Estados Unidos e em outros países. Todos os direitos reservados. Uso não autorizado estritamente proibido. Veja http://www.mlcommons.org para mais informações.
A complexidade da IA exige uma integração estreita entre todos os aspectos da plataforma. Como demonstrado pelos benchmarks MLPerf, a plataforma de IA da NVIDIA entrega o máximo desempenho com a GPU mais avançada do mundo, tecnologias de interconexão potentes e dimensionáveis e software revolucionário: uma solução completa que pode ser implantada no data center, no cloud ou no edge com resultados incríveis.
Um componente essencial da plataforma da NVIDIA e dos resultados de treinamento e inferência do MLPerf, o catálogo NGC™ é um hub para software de IA, HPC e análise de dados otimizado por GPU que simplifica e acelera os workflows de ponta a ponta. Com mais de 150 contêineres de nível empresarial, incluindo cargas de trabalho para IA generativa, IA conversacional e sistemas de recomendação; centenas de modelos de IA; e SDKs específicos do setor que podem ser implantados no local, na Cloud ou no edge, o NGC permite que cientistas de dados, pesquisadores e desenvolvedores criem as melhores soluções do setor, coletem insights e ofereçam valor aos negócios mais rapidamente do que nunca.
Alcançar resultados líderes mundiais em treinamento e inferência requer uma infraestrutura criada especificamente para os desafios de IA mais complexos do mundo. A plataforma de IA da NVIDIA ofereceu desempenho líder com as plataformas NVIDIA Blackwell e Blackwell Ultra, incluindo os sistemas NVIDIA GB300 NVL72 e GB200 NVL72, o NVLink e o NVLink Switch e o Quantum InfiniBand. Esses estão no coração das fábricas de IA com a plataforma de Data Center da NVIDIA, o mecanismo por trás de nosso desempenho de benchmark.
Além disso, os sistemas NVIDIA DGX™ oferecem a escalabilidade, a implantação rápida e o incrível poder computacional que permitem que todas as empresas criem infraestrutura de IA de nível de liderança.
O NVIDIA Jetson Orin oferece computação de IA incomparável, grande memória unificada e stacks abrangentes de software, proporcionando eficiência energética superior para impulsionar as mais recentes aplicações de IA generativa. É capaz de realizar inferência rápida para qualquer modelo de IA generativa alimentado pela arquitetura do transformador, proporcionando desempenho de edge superior no MLPerf.
Saiba Mais sobre nosso desempenho de treinamento e inferência de Data Center.