Benchmarks MLPerf

A plataforma de IA da NVIDIA alcança desempenho e versatilidade de nível mundial em benchmarks de Treinamento, Inferência e HPC de MLPerf para as cargas de trabalho de IA mais exigentes e reais.

O que é o MLPerf?

Os benchmarks MLPerf™, desenvolvidos pela MLCommons, um consórcio de líderes de IA do mundo acadêmico, laboratórios de pesquisa e do setor, são projetados para fornecer avaliações imparciais de desempenho de treinamento e inferência para hardware, software e serviços. Todos são realizados sob condições prescritas. Para se manter na vanguarda das tendências do setor, o MLPerf continua a evoluir, realizando novos testes em intervalos regulares e adicionando novas cargas de trabalho que representam o estado da arte em IA.

Por Dentro dos Benchmarks MLPerf

O MLPerf Inference v5.1 mede o desempenho de inferência em 10 modelos de IA diferentes, incluindo uma variedade de grandes modelos de linguagem (LLMs), um LLM de raciocínio, IA generativa de texto para imagem, recomendação, texto para fala e rede neural de gráficos (GNN).

O MLPerf Training v5.1 mede o tempo para treinar sete modelos diferentes, cobrindo os seguintes casos de uso: LLMs (pré-treinamento e ajuste fino), geração de imagens, GNN, detecção de objetos e recomendação.

Grande Modelo de Linguagem de Raciocínio

Grande modelo de linguagem que gera tokens de raciocínio intermediário para melhorar a precisão da resposta.

Detalhes

Grandes Modelos de Linguagem

Algoritmos de deep learning treinados em conjuntos de dados em larga escala que podem reconhecer, resumir, traduzir, prever e gerar conteúdo para uma variedade de casos de uso.

Detalhes

Texto para imagem

Gera imagens a partir de prompts de texto.

Detalhes

Recomendação

Oferece resultados personalizados em serviços voltados para o usuário, como mídias sociais ou sites de comércio eletrônico, entendendo as interações entre usuários e itens de serviço, como produtos ou anúncios.

Detalhes

Detecção de Objetos (Leve)

Encontra instâncias de objetos reais, como rostos, bicicletas e edifícios em imagens ou vídeos, e especifica uma caixa de limite em torno de cada um.

Detalhes

Rede Neural Gráfica

Usa redes neurais projetadas para trabalhar com dados estruturados como gráficos.

Detalhes

Conversão de Fala em Texto

Converte a linguagem falada em texto escrito.

Detalhes

Resultados de Benchmark do NVIDIA MLPerf

A plataforma da NVIDIA alcançou o tempo mais rápido para treinar em todos os sete benchmarks do MLPerf Training v5.1. O Blackwell Ultra fez sua estreia, oferecendo grandes avanços no pré-treinamento e ajuste fino de modelos de linguagem, habilitados por aprimoramentos arquitetônicos e métodos de treinamento NVFP4 inovadores que aumentam o desempenho e atendem aos requisitos de precisão do MLPerf. A NVIDIA também aumentou o desempenho do pré-treinamento do Blackwell Llama 3.1 405B em escala em 2,7 vezes por meio de uma combinação de duas vezes a escala e grandes aumentos no desempenho por GPU habilitada pelo NVFP4. A NVIDIA também estabeleceu recordes de desempenho em ambos os benchmarks recém-adicionados, Llama 3.1 8B e FLUX.1, continuando a manter recordes de desempenho em benchmarks existentes de recomendação, detecção de objetos e redes neurais de gráficos.

NVIDIA Blackwell Ultra Oferece um Grande Salto na Estreia do Treinamento MLPerf

Resultados do MLPerf™ Training v5.0 e v5.1 recuperados de www.mlcommons.org em 12 de novembro de 2025, a partir das seguintes entradas: 4.1-0050, 5.0-0014, 5.0-0067, 5.0-0076, 5.1-0058, 5.1-0060. O nome e o logotipo da MLPerf™ são marcas comerciais da MLCommons Association nos Estados Unidos e em outros países. Todos os direitos reservados. O uso não autorizado é estritamente proibido. Veja www.mlcommons.org para mais informações.

Ritmo Anual e Co-Design Extremo para Liderança de Treinamento Sustentado

A plataforma da NVIDIA ofereceu o tempo mais rápido para treinar em todos os benchmarks do MLPerf Training v5.1, com inovações em chips, sistemas e software, permitindo a liderança sustentada no desempenho de treinamento, como mostrado nos dados de desempenho padrão do setor e revisados por pares.

Máximo desempenho em escala

Benchmark Time to Train
LLM Pretraining (Llama 3.1 405B) 10 minutes
LLM Pretraining (Llama 3.1 8B) 5.2 minutes
LLM Fine-Tuning (Llama 2 70B LoRA) 0.40 minutes
Image Generation (FLUX.1) 12.5 minutes
Recommender (DLRM-DCNv2) 0.71 minutes
Graph Neural Network (R-GAT) 0.84 minutes
Object Detection (RetinaNet) 1.4 minutes

Resultados do MLPerf™ Training v5.0 e v5.1 recuperados de www.mlcommons.org em 12 de novembro de 2025, a partir das seguintes entradas: 5.0-0082, 5.1-0002, 5.1-0004, 5.1-0060, 5.1-0070, 5.1-0072. O nome e o logotipo da MLPerf™ são marcas comerciais da MLCommons Association nos Estados Unidos e em outros países. Todos os direitos reservados. O uso não autorizado é estritamente proibido. Veja www.mlcommons.org para mais informações.

Blackwell Ultra Estabelece Novos Recordes de Inferência de Raciocínio na Inferência MLPerf v5.1

A plataforma NVIDIA estabeleceu muitos novos recordes na Inferência MLPerf v5.1, incluindo o novo raciocínio desafiador DeepSeek-R1 e os testes Interativos Llama 3.1 405B, e continua a deter todos os recordes de desempenho de Inferência MLPerf por GPU na categoria de Data Center. O sistema em escala de rack GB300 NVL72, baseado na arquitetura de GPU NVIDIA Blackwell Ultra, fez sua estreia apenas seis meses após o NVIDIA Blackwell, estabelecendo novos recordes no benchmark de inferência de raciocínio DeepSeek-R1. E o NVIDIA Dynamo também fez sua estréia nessa rodada, com seu serviço desagregado, aumentando significativamente o desempenho de cada GPU Blackwell no Llama 3.1 405B Interactive. O desempenho e o ritmo de inovação da plataforma NVIDIA permitem maior inteligência, maior potencial de receita de fábricas de IA e menor custo por milhão de tokens.

A Plataforma NVIDIA Detém todos os Recordes de Inferência de MLPerf por GPU de Data Center

Benchmark Offline Server Interactive
DeepSeek-R1 5,842 Tokens/Second 2,907 Tokens/Second *
Llama 3.1 405B 224 Tokens/Second 170 Tokens/Second 138 Tokens/Second
Llama 2 70B 99.9% 12,934 Tokens/Second 12,701 Tokens/Second 7,856 Tokens/Second
Llama 3.1 8B 18,370 Tokens/Second 16,099 Tokens/Second 15,284 Tokens/Second
Mistral 8x7B 16,099 Tokens/Second 16,131 Tokens/Second *
Stable Diffusion XL 4.07 Samples/Second 3.59 Queries/Second *
DLRMv2 99% 87,228 Tokens/Second 80,515 Tokens/Second *
DLRMv2 99.9% 48,666 Tokens/Second 46,259 Tokens/Second *
RetinaNet 1,875 samples/second/GPU 1,801 queries/second/GPU *
Whisper 5,667 Tokens/Second * *
Graph Neural Network 81,404 Tokens/Second * *

* Cenários que não fazem parte dos pacotes de benchmark de Inferência MLPerf v5.0 ou v5.1.

MLPerf Inference v5.0 e v5.1, Divisão Fechada. Resultados recuperados de www.mlcommons.org em 9 de setembro de 2025. A plataforma NVIDIA resulta das seguintes entradas: 5.0-0072, 5.1-0007, 5.1-0053, 5.1-0079, 5.1-0028, 5.1-0062, 5.1-0086, 5.1-0073, 5.1-0008, 5.1-0070, 5.1-0046, 5.1-0009, 5.1-0060, 5.1-0072. 5.1-0071, 5.1-0069 Desempenho por chip derivado dividindo o rendimento total pelo número de chips relatados. O desempenho por chip não é uma métrica principal da Inferência MLPerf v5.0 ou v5.1. O nome e o logotipo da MLPerf são marcas comerciais registradas e não registradas da MLCommons Association nos Estados Unidos e em outros países. Todos os direitos reservados. Uso não autorizado estritamente proibido. Veja http://www.mlcommons.org para mais informações.

A Tecnologia por Trás dos Resultados

A complexidade da IA exige uma integração estreita entre todos os aspectos da plataforma. Como demonstrado pelos benchmarks MLPerf, a plataforma de IA da NVIDIA entrega o máximo desempenho com a GPU mais avançada do mundo, tecnologias de interconexão potentes e dimensionáveis e software revolucionário: uma solução completa que pode ser implantada no data center, no cloud ou no edge com resultados incríveis.

Software Otimizado que Acelera Workflows de IA

Um componente essencial da plataforma da NVIDIA e dos resultados de treinamento e inferência do MLPerf, o catálogo NGC™ é um hub para software de IA, HPC e análise de dados otimizado por GPU que simplifica e acelera os workflows de ponta a ponta. Com mais de 150 contêineres de nível empresarial, incluindo cargas de trabalho para IA generativa, IA conversacional e sistemas de recomendação; centenas de modelos de IA; e SDKs específicos do setor que podem ser implantados no local, na Cloud ou no edge, o NGC permite que cientistas de dados, pesquisadores e desenvolvedores criem as melhores soluções do setor, coletem insights e ofereçam valor aos negócios mais rapidamente do que nunca.

Infraestrutura Líder de IA

Alcançar resultados líderes mundiais em treinamento e inferência requer uma infraestrutura criada especificamente para os desafios de IA mais complexos do mundo. A plataforma de IA da NVIDIA ofereceu desempenho líder com as plataformas NVIDIA Blackwell e Blackwell Ultra, incluindo os sistemas NVIDIA GB300 NVL72 e GB200 NVL72, o NVLink e o NVLink Switch e o Quantum InfiniBand. Esses estão no coração das fábricas de IA com a plataforma de Data Center da NVIDIA, o mecanismo por trás de nosso desempenho de benchmark.

Além disso, os sistemas NVIDIA DGX™ oferecem a escalabilidade, a implantação rápida e o incrível poder computacional que permitem que todas as empresas criem infraestrutura de IA de nível de liderança. 

Liberando a IA generativa no edge com desempenho transformador

O NVIDIA Jetson Orin oferece computação de IA incomparável, grande memória unificada e stacks abrangentes de software, proporcionando eficiência energética superior para impulsionar as mais recentes aplicações de IA generativa. É capaz de realizar inferência rápida para qualquer modelo de IA generativa alimentado pela arquitetura do transformador, proporcionando desempenho de edge superior no MLPerf.

Saiba Mais sobre nosso desempenho de treinamento e inferência de Data Center.

Grandes Modelos de Linguagem

O MLPerf Training usa o modelo de linguagem generativa Llama 3.1 com 405 bilhões de parâmetros e um comprimento de sequência de 8.192 para a carga de trabalho de pré-treinamento de LLM com o conjunto de dados c4 (v3.0.1). Para o teste de ajuste fino de LLM, ele usa o modelo Llama 2 70B com o conjunto de dados GovReport com comprimentos de sequência de 8.192. O Llama 3.1 8B também usa o conjunto de dados C4 com comprimentos de sequência de 8.192.

A MLPerf Inference usa o modelo Llama 3.1 405B com os seguintes conjuntos de dados: resumo LongBench, RULER e GovReport; o modelo Llama 2 70B com o conjunto de dados OpenORCA; o modelo Mixtral 8x7B com os conjuntos de dados OpenORCA, GSM8K e MBXP; e o modelo Llama 3.1 8B com o conjunto de dados CNN-DailyMail.

Texto para imagem

O MLPerf Training usa o modelo de texto para imagem FLUX.1 treinado no conjunto de dados CC12M com o conjunto de dados COCO 2014 para avaliação.

A MLPerf Inference usa o modelo de texto para imagem Stable Diffusion XL (SDXL) com um subconjunto de 5.000 prompts do conjunto de dados coco-val-2014. 

Recomendação

O MLPerf Training and Inference usa o Modelo de Recomendação de Deep Learning v2 (DLRMv2) que emprega DCNv2 cross-layer e um conjunto de dados multi-hot sintetizado a partir do conjunto de dados Criteo.

Detecção de Objetos (Leve)

O MLPerf Training usa o Single-Shot Detector (SSD) com o backbone ResNeXt50 em um subconjunto do conjunto de dados do Google OpenImages.

Raciocínio LLM

A MLPerf Inference usa o modelo DeepSeek-R1 com amostras obtidas dos seguintes conjuntos de dados: IAME, MATH500, GPQA-Diamond, MMLU-Pro, LiveCodeBench.

Processamento de Linguagem Natural (PLN)

O Treinamento MLPerf usa o Bidirectional Encoder Representations from Transformers (BERT) no conjunto de dados Wikipedia 01/01/2020.

Rede Neural Gráfica

O MLPerf Training usa o R-GAT com o Illinois Graph Benchmark (IGB): conjunto de dados heterogêneo.

Conversão de Fala em Texto

A MLPerf Inference usa o Whisper-Large-V3 com o conjunto de dados LibriSpeech.

Servidor

4X

Offline

3,7X

Superchip de IA

Transistores 208B

Transformer Engine de 2ª geração

Núcleo tensor FP4/FP6

NVLINK de 5ª geração

Escala para 576 GPUs

Mecanismo RAS

Autoteste 100% no sistema

IA Segura

Criptografia de desempenho total e TEE

Mecanismo de descompactação

800 GB/s