Pruebas de referencia de MLPerf

La plataforma de IA de NVIDIA logra un rendimiento y versatilidad de clase mundial en entrenamiento MLPerf, inferencia y pruebas de referencia de HPC para las cargas de trabajo de IA del mundo real más exigentes.

¿Qué es MLPerf?

Las pruebas de referencia de MLPerf™ —desarrolladas por MLCommons, un consorcio de líderes de IA del mundo académico, laboratorios de investigación y la industria— están diseñadas para proporcionar evaluaciones imparciales de entrenamiento y rendimiento de inferencia para hardware, software y servicios. Todas se realizan en las condiciones prescritas. Para mantenerse a la vanguardia de las tendencias del sector, MLPerf está en constante evolución, realizando nuevas pruebas a intervalos regulares y agregando nuevas cargas de trabajo que representan la IA más avanzada.

Dentro de las pruebas de referencia de MLPerf

MLPerf Inference v5.1 mide el rendimiento de inferencia en 10 modelos diferentes de inteligencia artificial, incluidos una variedad de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés), un LLM de razonamiento, una IA generativa de texto a imagen, una IA de recomendación, una de texto a voz y una red neuronal de gráficos (GNN).

MLPerf Training v5.1 mide el tiempo necesario para entrenar siete modelos diferentes, que abarcan los siguientes casos de uso: modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) (preentrenamiento y ajuste preciso), generación de imágenes, GNN, detección de objetos y recomendación.

Razonamiento de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés).

Modelo de lenguaje de gran escala que genera tokens intermedios de razonamiento o pensamiento para mejorar la precisión de las respuestas.

Detalles

Modelos lingüísticos de gran tamaño

Algoritmos de deep learning entrenados en conjuntos de datos a gran escala que pueden reconocer, resumir, traducir, predecir y generar contenido para una amplia gama de casos de uso.

Detalles

Texto a imagen

Genera imágenes a partir de indicaciones de texto.

Detalles

Recomendación

Ofrece resultados personalizados en servicios orientados a usuarios, como redes sociales o sitios web de comercio electrónico, al comprender las interacciones entre los usuarios y los elementos de servicio, como productos o anuncios.

Detalles

Detección de objetos (ligera)

Encuentra instancias de objetos del mundo real, como caras, bicicletas y edificios, en imágenes o vídeos, y especifica un cuadro delimitador en torno a cada uno.

Detalles

Red neuronal gráfica

Utiliza redes neuronales diseñadas para trabajar con datos estructurados como grafos.

Detalles

Voz a texto

Convierte el lenguaje hablado en texto escrito.

Detalles

Resultados de las pruebas de referencia de MLPerf de NVIDIA

La plataforma NVIDIA logró el tiempo de entrenamiento más rápido en las siete pruebas de referencia de MLPerf Training v5.1. Blackwell Ultra hizo su debut, ofreciendo grandes saltos para el entrenamiento previo y el ajuste preciso de modelos lingüísticos de gran tamaño, todo ello gracias a las mejoras arquitectónicas y los métodos de entrenamiento innovadores de NVFP4 que aumentan el rendimiento y cumplen con los estrictos requisitos de precisión de MLPerf. NVIDIA también aumentó el rendimiento de preentrenamiento de Blackwell Llama 3.1 405B a escala en 2,7 veces mediante una combinación de doble de escala y grandes aumentos en el rendimiento por GPU permitidos por NVFP4. NVIDIA también estableció récords de rendimiento en las dos pruebas de referencia recientemente añadidas, Llama 3.1 8B y FLUX.1, al tiempo que continuó manteniendo récords de rendimiento en las pruebas de referencia existentes de recomendación, detección de objetos y gráficos.

NVIDIA Blackwell Ultra ofrece un gran salto en la iniciación del entrenamiento de MLPerf.

Resultados de MLPerf™ Training v5.0 y v5.1 recuperados de www.mlcommons.org el 12 de noviembre de 2025 de las siguientes entradas: 4.1-0050, 5.0-0014, 5.0-0067, 5.0-0076, 5.1-0058, 5.1-0060. El nombre y el logotipo de MLPerf™ son marcas comerciales de la asociación MLCommons en Estados Unidos y otros países. Todos los derechos reservados. El uso no autorizado queda estrictamente prohibido. Consulte www.mlcommons.org para obtener más información.

Co-diseño extremo y ritmo anual para el liderazgo en el entrenamiento sostenido.

La plataforma NVIDIA presento el tiempo de entrenamiento más rápido en todas las pruebas de referencia de MLPerf Training v5.1, con innovaciones en chips, sistemas y software que permiten el liderazgo constante en el rendimiento de entrenamiento, como muestran los datos de rendimiento estándar del sector revisados por pares.

Rendimiento de máxima escala

Benchmark Time to Train
LLM Pretraining (Llama 3.1 405B) 10 minutes
LLM Pretraining (Llama 3.1 8B) 5.2 minutes
LLM Fine-Tuning (Llama 2 70B LoRA) 0.40 minutes
Image Generation (FLUX.1) 12.5 minutes
Recommender (DLRM-DCNv2) 0.71 minutes
Graph Neural Network (R-GAT) 0.84 minutes
Object Detection (RetinaNet) 1.4 minutes

Resultados de MLPerf™ Training v5.0 y v5.1 obtenidos de www.mlcommons.org el 12 de noviembre de 2025 de las siguientes entradas: 5.0-0082, 5.1-0002, 5.1-0004, 5.1-0060, 5.1-0070, 5.1-0072. El nombre y el logotipo de MLPerf™ son marcas comerciales de la asociación MLCommons en Estados Unidos y otros países. Todos los derechos reservados. El uso no autorizado está estrictamente prohibido. Para obtener más información, consulte www.mlcommons.org.

Blackwell Ultra establece nuevos récords de inferencia de razonamiento en MLPerf Inference v5.1

La plataforma NVIDIA estableció muchos récords nuevos en MLPerf Inference v5.1, incluidas las nuevas y desafiantes pruebas de razonamiento DeepSeek-R1 y las interactivas Llama 3.1 405B, y mantiene todos los récords de rendimiento de inferencia MLPerf por GPU en la categoría de centros de datos. El sistema GB300 NVL72, basado en la arquitectura de GPU NVIDIA Blackwell Ultra, hizo su debut solo seis meses después de NVIDIA Blackwell, estableciendo nuevos récords en el punto de referencia de inferencia de razonamiento DeepSeek-R1. Y NVIDIA Dynamo también hizo su debut en esta ronda, con su servicio desagregado, aumentando drásticamente el rendimiento de cada GPU Blackwell en Llama 3.1 405B Interactive. El rendimiento y el ritmo de innovación en la plataforma de NVIDIA permiten una mayor inteligencia, un mayor potencial de ingresos para las fábricas de IA y un menor coste por millón de tokens.

La plataforma NVIDIA ostenta todos los registros de centro de datos por GPU en la inferencia de MLPerf.

Benchmark Offline Server Interactive
DeepSeek-R1 5,842 Tokens/Second 2,907 Tokens/Second *
Llama 3.1 405B 224 Tokens/Second 170 Tokens/Second 138 Tokens/Second
Llama 2 70B 99.9% 12,934 Tokens/Second 12,701 Tokens/Second 7,856 Tokens/Second
Llama 3.1 8B 18,370 Tokens/Second 16,099 Tokens/Second 15,284 Tokens/Second
Mistral 8x7B 16,099 Tokens/Second 16,131 Tokens/Second *
Stable Diffusion XL 4.07 Samples/Second 3.59 Queries/Second *
DLRMv2 99% 87,228 Tokens/Second 80,515 Tokens/Second *
DLRMv2 99.9% 48,666 Tokens/Second 46,259 Tokens/Second *
RetinaNet 1,875 samples/second/GPU 1,801 queries/second/GPU *
Whisper 5,667 Tokens/Second * *
Graph Neural Network 81,404 Tokens/Second * *

* Escenarios que no forman parte de los conjuntos de puntos de referencia de inferencia de MLPerf v5.0 o v5.1.

Inferencia MLPerf v5.0 y v5.1, división cerrada. Resultados obtenidos de www.mlcommons.org el 9 de septiembre de 2025. Resultados de la plataforma NVIDIA de las siguientes entradas: 5.0-0072, 5.1-0007, 5.1-0053, 5.1-0079, 5.1-0028, 5.1-0062, 5.1-0086, 5.1-0073, 5.1-0008, 5.1-0070, 5.1-0046, 5.1-0009, 5.1-0060, 5.1-0072. 5.1-0071, 5.1-0069 Rendimiento por chip obtenido al dividir el rendimiento total por el número de chips notificados. El rendimiento por chip no es una métrica principal de MLPerf Inference v5.0 o v5.1. El nombre y el logotipo de MLPerf son marcas registradas y no registradas de la asociación MLCommons en los Estados Unidos y otros países. Todos los derechos reservados. Uso no autorizado estrictamente prohibido. Consulte http://www.mlcommons.org para obtener más información.

La tecnología detrás de los resultados

La complejidad de la IA exige una estrecha integración entre todos los aspectos de la plataforma. Como se ha demostrado en las pruebas de referencia de MLPerf, la plataforma de IA de NVIDIA ofrece un rendimiento de liderazgo con la GPU más avanzada del mundo, tecnologías de interconexión potentes y escalables y software de vanguardia: una solución integral que se puede implementar en el centro de datos, en la nube o en el perímetro con resultados increíbles.

Software optimizado que acelera los flujos de trabajo de IA

Un componente esencial de la plataforma de NVIDIA y de los resultados de entrenamiento e inferencia de MLPerf, el catálogo NGC™ es un centro para software de IA, HPC y análisis de datos optimizado para GPU que simplifica y acelera los flujos de trabajo de extremo a extremo. Con más de 150 contenedores de nivel empresarial, incluidas cargas de trabajo para IA generativa, IA conversacional, sistemas de recomendación y cientos de modelos de IA y SDK específicos del sector que se pueden implementar en las instalaciones, en la nube o en el perímetro, NGC permite a científicos de datos, investigadores y desarrolladores crear las mejores soluciones, recopilar información y ofrecer valor comercial más rápido que nunca.

Infraestructura de IA de nivel de liderazgo

Para lograr resultados de primera línea en formación e inferencia, se requiere una infraestructura diseñada específicamente para los desafíos de IA más complejos del mundo. La plataforma NVIDIA AI ofreció un rendimiento líder impulsado por las plataformas NVIDIA Blackwell y Blackwell Ultra, incluidos los sistemas NVIDIA GB300 NVL72 y GB200 NVL72, NVLink y NVLink Switch y Quantum InfiniBand. Estos se encuentran en el corazón de las fábricas de IA impulsadas por la plataforma de centros de datos de NVIDIA, el motor detrás de nuestro rendimiento de referencia.

Además, los sistemas NVIDIA DGX™ ofrecen la escalabilidad, la rápida implementación y una increíble capacidad de cálculo que permite a todas las empresas crear infraestructuras de IA de nivel de liderazgo. 

Liberar la IA generativa en el perímetro con un rendimiento transformador

NVIDIA Jetson Orin ofrece computación de IA sin precedentes, gran memoria unificada y pilas de software completas con una eficiencia energética superior para impulsar las aplicaciones de IA generativa más recientes. Es capaz de realizar inferencias rápidamente para cualquier modelo de IA generativa impulsado por la arquitectura del transformador, proporcionando un rendimiento perimetral superior en MLPerf.

Obtenga más información sobre el rendimiento de inferencia y de entrenamiento de nuestro centro de datos.

Modelos lingüísticos de gran tamaño

MLPerf Training utiliza el modelo de lenguaje generativo Llama 3.1 con 405 000 millones de parámetros y una longitud de secuencia de 8.192 para la carga de trabajo de preentrenamiento de LLM con el conjunto de datos c4 (v3.0.1). Para la prueba de ajuste preciso de LLM, utiliza el modelo Llama 2 70B con el conjunto de datos GovReport con longitudes de secuencia de 8.192. Llama 3.1 8B también utiliza el conjunto de datos C4 con longitudes de secuencia de 8.192.

MLPerf Inference utiliza el modelo Llama 3.1 405B con los siguientes conjuntos de datos: resumen de LongBench, RULER y GovReport; modelo Llama 2 70B con el conjunto de datos OpenORCA; el modelo Mixtral 8x7B con los conjuntos de datos OpenORCA, GSM8K y MBXP; y el modelo Llama 3.1 8B con el conjunto de datos CNN-DailyMail.

Texto a imagen

MLPerf Training utiliza el modelo de texto a imagen FLUX.1 entrenado en el conjunto de datos CC12M con el conjunto de datos COCO 2014 para la evaluación.

MLPerf Inference utiliza el modelo de texto a imagen de Stable Diffusion XL (SDXL) con un subconjunto de 5000 indicaciones procedentes del conjunto de datos coco-val-2014. 

Recomendación

MLPerf Training and Inference utiliza el modelo de recomendación v2 (DLRMv2) de Deep Learning que emplea DCNv2 multinivel y un conjunto de datos multi-hot sintetizado a partir del conjunto de datos de Criteo.

Detección de objetos (ligera)

MLPerf Training utiliza Single-Shot Detector (SSD) (Detector de capturas únicas) con el nodo de distribución troncal ResNeXt50 en un subconjunto del conjunto de datos de Google OpenImages.

LLM de razonamiento

MLPerf Inference utiliza el modelo DeepSeek-R1 con muestras obtenidas de los siguientes conjuntos de datos: AIME, MATH500, GPQA-Diamond, MMLU-Pro, LiveCodeBench.

Procesamiento del lenguaje natural (PLN)

MLPerf Training utiliza Bidirectional Encoder Representations from Transformers (BERT) en el conjunto de datos Wikipedia del 01/01/2020.

Red neuronal gráfica

MLPerf Training utiliza R-GAT con el conjunto de datos Illinois Graph Benchmark (IGB): conjunto de datos heterogéneos.

Voz a texto

MLPerf Inference utiliza Whisper-Large-V3 con el conjunto de datos de LibriSpeech.

Servidor

4 veces

Sin conexión

3,7 veces

Superchip de IA

Transistores 208B

Motor de transformador de 2.ª generación

Núcleo Tensor FP4/FP6

NVLINK de 5.ª generación

Escala hasta 576 GPU

Motor de fiabilidad, disponibilidad y mantenimiento (RAS)

Autoprueba 100 % dentro del sistema

IA segura

Cifrado de rendimiento total y entorno de ejecución de confianza (TEE)

Motor de descompresión

800 GB/s