Las pruebas de referencia de MLPerf™ —desarrolladas por MLCommons, un consorcio de líderes de IA del mundo académico, laboratorios de investigación y la industria— están diseñadas para proporcionar evaluaciones imparciales de entrenamiento y rendimiento de inferencia para hardware, software y servicios. Todas se realizan en las condiciones prescritas. Para mantenerse a la vanguardia de las tendencias del sector, MLPerf está en constante evolución, realizando nuevas pruebas a intervalos regulares y agregando nuevas cargas de trabajo que representan la IA más avanzada.
MLPerf Inference v5.1 mide el rendimiento de inferencia en 10 modelos diferentes de inteligencia artificial, incluidos una variedad de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés), un LLM de razonamiento, una IA generativa de texto a imagen, una IA de recomendación, una de texto a voz y una red neuronal de gráficos (GNN).
MLPerf Training v5.1 mide el tiempo necesario para entrenar siete modelos diferentes, que abarcan los siguientes casos de uso: modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) (preentrenamiento y ajuste preciso), generación de imágenes, GNN, detección de objetos y recomendación.
La plataforma NVIDIA logró el tiempo de entrenamiento más rápido en las siete pruebas de referencia de MLPerf Training v5.1. Blackwell Ultra hizo su debut, ofreciendo grandes saltos para el entrenamiento previo y el ajuste preciso de modelos lingüísticos de gran tamaño, todo ello gracias a las mejoras arquitectónicas y los métodos de entrenamiento innovadores de NVFP4 que aumentan el rendimiento y cumplen con los estrictos requisitos de precisión de MLPerf. NVIDIA también aumentó el rendimiento de preentrenamiento de Blackwell Llama 3.1 405B a escala en 2,7 veces mediante una combinación de doble de escala y grandes aumentos en el rendimiento por GPU permitidos por NVFP4. NVIDIA también estableció récords de rendimiento en las dos pruebas de referencia recientemente añadidas, Llama 3.1 8B y FLUX.1, al tiempo que continuó manteniendo récords de rendimiento en las pruebas de referencia existentes de recomendación, detección de objetos y gráficos.
Resultados de MLPerf™ Training v5.0 y v5.1 recuperados de www.mlcommons.org el 12 de noviembre de 2025 de las siguientes entradas: 4.1-0050, 5.0-0014, 5.0-0067, 5.0-0076, 5.1-0058, 5.1-0060. El nombre y el logotipo de MLPerf™ son marcas comerciales de la asociación MLCommons en Estados Unidos y otros países. Todos los derechos reservados. El uso no autorizado queda estrictamente prohibido. Consulte www.mlcommons.org para obtener más información.
La plataforma NVIDIA presento el tiempo de entrenamiento más rápido en todas las pruebas de referencia de MLPerf Training v5.1, con innovaciones en chips, sistemas y software que permiten el liderazgo constante en el rendimiento de entrenamiento, como muestran los datos de rendimiento estándar del sector revisados por pares.
| Benchmark | Time to Train |
|---|---|
| LLM Pretraining (Llama 3.1 405B) | 10 minutes |
| LLM Pretraining (Llama 3.1 8B) | 5.2 minutes |
| LLM Fine-Tuning (Llama 2 70B LoRA) | 0.40 minutes |
| Image Generation (FLUX.1) | 12.5 minutes |
| Recommender (DLRM-DCNv2) | 0.71 minutes |
| Graph Neural Network (R-GAT) | 0.84 minutes |
| Object Detection (RetinaNet) | 1.4 minutes |
Resultados de MLPerf™ Training v5.0 y v5.1 obtenidos de www.mlcommons.org el 12 de noviembre de 2025 de las siguientes entradas: 5.0-0082, 5.1-0002, 5.1-0004, 5.1-0060, 5.1-0070, 5.1-0072. El nombre y el logotipo de MLPerf™ son marcas comerciales de la asociación MLCommons en Estados Unidos y otros países. Todos los derechos reservados. El uso no autorizado está estrictamente prohibido. Para obtener más información, consulte www.mlcommons.org.
La plataforma NVIDIA estableció muchos récords nuevos en MLPerf Inference v5.1, incluidas las nuevas y desafiantes pruebas de razonamiento DeepSeek-R1 y las interactivas Llama 3.1 405B, y mantiene todos los récords de rendimiento de inferencia MLPerf por GPU en la categoría de centros de datos. El sistema GB300 NVL72, basado en la arquitectura de GPU NVIDIA Blackwell Ultra, hizo su debut solo seis meses después de NVIDIA Blackwell, estableciendo nuevos récords en el punto de referencia de inferencia de razonamiento DeepSeek-R1. Y NVIDIA Dynamo también hizo su debut en esta ronda, con su servicio desagregado, aumentando drásticamente el rendimiento de cada GPU Blackwell en Llama 3.1 405B Interactive. El rendimiento y el ritmo de innovación en la plataforma de NVIDIA permiten una mayor inteligencia, un mayor potencial de ingresos para las fábricas de IA y un menor coste por millón de tokens.
| Benchmark | Offline | Server | Interactive |
|---|---|---|---|
| DeepSeek-R1 | 5,842 Tokens/Second | 2,907 Tokens/Second | * |
| Llama 3.1 405B | 224 Tokens/Second | 170 Tokens/Second | 138 Tokens/Second |
| Llama 2 70B 99.9% | 12,934 Tokens/Second | 12,701 Tokens/Second | 7,856 Tokens/Second |
| Llama 3.1 8B | 18,370 Tokens/Second | 16,099 Tokens/Second | 15,284 Tokens/Second |
| Mistral 8x7B | 16,099 Tokens/Second | 16,131 Tokens/Second | * |
| Stable Diffusion XL | 4.07 Samples/Second | 3.59 Queries/Second | * |
| DLRMv2 99% | 87,228 Tokens/Second | 80,515 Tokens/Second | * |
| DLRMv2 99.9% | 48,666 Tokens/Second | 46,259 Tokens/Second | * |
| RetinaNet | 1,875 samples/second/GPU | 1,801 queries/second/GPU | * |
| Whisper | 5,667 Tokens/Second | * | * |
| Graph Neural Network | 81,404 Tokens/Second | * | * |
* Escenarios que no forman parte de los conjuntos de puntos de referencia de inferencia de MLPerf v5.0 o v5.1.
Inferencia MLPerf v5.0 y v5.1, división cerrada. Resultados obtenidos de www.mlcommons.org el 9 de septiembre de 2025. Resultados de la plataforma NVIDIA de las siguientes entradas: 5.0-0072, 5.1-0007, 5.1-0053, 5.1-0079, 5.1-0028, 5.1-0062, 5.1-0086, 5.1-0073, 5.1-0008, 5.1-0070, 5.1-0046, 5.1-0009, 5.1-0060, 5.1-0072. 5.1-0071, 5.1-0069 Rendimiento por chip obtenido al dividir el rendimiento total por el número de chips notificados. El rendimiento por chip no es una métrica principal de MLPerf Inference v5.0 o v5.1. El nombre y el logotipo de MLPerf son marcas registradas y no registradas de la asociación MLCommons en los Estados Unidos y otros países. Todos los derechos reservados. Uso no autorizado estrictamente prohibido. Consulte http://www.mlcommons.org para obtener más información.
La complejidad de la IA exige una estrecha integración entre todos los aspectos de la plataforma. Como se ha demostrado en las pruebas de referencia de MLPerf, la plataforma de IA de NVIDIA ofrece un rendimiento de liderazgo con la GPU más avanzada del mundo, tecnologías de interconexión potentes y escalables y software de vanguardia: una solución integral que se puede implementar en el centro de datos, en la nube o en el perímetro con resultados increíbles.
Un componente esencial de la plataforma de NVIDIA y de los resultados de entrenamiento e inferencia de MLPerf, el catálogo NGC™ es un centro para software de IA, HPC y análisis de datos optimizado para GPU que simplifica y acelera los flujos de trabajo de extremo a extremo. Con más de 150 contenedores de nivel empresarial, incluidas cargas de trabajo para IA generativa, IA conversacional, sistemas de recomendación y cientos de modelos de IA y SDK específicos del sector que se pueden implementar en las instalaciones, en la nube o en el perímetro, NGC permite a científicos de datos, investigadores y desarrolladores crear las mejores soluciones, recopilar información y ofrecer valor comercial más rápido que nunca.
Para lograr resultados de primera línea en formación e inferencia, se requiere una infraestructura diseñada específicamente para los desafíos de IA más complejos del mundo. La plataforma NVIDIA AI ofreció un rendimiento líder impulsado por las plataformas NVIDIA Blackwell y Blackwell Ultra, incluidos los sistemas NVIDIA GB300 NVL72 y GB200 NVL72, NVLink y NVLink Switch y Quantum InfiniBand. Estos se encuentran en el corazón de las fábricas de IA impulsadas por la plataforma de centros de datos de NVIDIA, el motor detrás de nuestro rendimiento de referencia.
Además, los sistemas NVIDIA DGX™ ofrecen la escalabilidad, la rápida implementación y una increíble capacidad de cálculo que permite a todas las empresas crear infraestructuras de IA de nivel de liderazgo.
NVIDIA Jetson Orin ofrece computación de IA sin precedentes, gran memoria unificada y pilas de software completas con una eficiencia energética superior para impulsar las aplicaciones de IA generativa más recientes. Es capaz de realizar inferencias rápidamente para cualquier modelo de IA generativa impulsado por la arquitectura del transformador, proporcionando un rendimiento perimetral superior en MLPerf.
Obtenga más información sobre el rendimiento de inferencia y de entrenamiento de nuestro centro de datos.