Análisis de Referencia MLPerf

La plataforma de IA de NVIDIA logra un desempeño y una versatilidad de primer nivel en los análisis de referencia MLPerf de entrenamiento, inferencia y HPC para las cargas de trabajo de IA más exigentes y del mundo real.

¿Qué es MLPerf?

Los análisis de referencia MLPerf™, desarrollados por MLCommons, un consorcio de líderes de IA del mundo académico, laboratorios de investigación y la industria, están diseñados para proporcionar evaluaciones imparciales del desempeño de entrenamiento e inferencia para hardware, software y servicios. Todos se realizan según condiciones prescritas. Para mantenerse a la vanguardia de las tendencias de la industria, MLPerf continúa evolucionando, realiza nuevas pruebas a intervalos regulares y agrega nuevas cargas de trabajo que representan el estado de la cuestión en IA.

Dentro de los Análisis de Referencia de MLPerf

MLPerf Inference v5.1 mide el desempeño de inferencia en 10 modelos de IA diferentes, que incluyen una variedad de grandes modelos de lenguaje (LLM), un LLM de razonamiento, IA generativa de texto a imagen, recomendaciones, conversión de texto a voz y redes neuronales gráficas (GNN).

MLPerf Training v5.1 mide el tiempo necesario para entrenar siete modelos diferentes que cubren los siguientes casos de uso: LLM (preentrenamiento y ajuste fino), generación de imágenes, GNN, detección de objetos y recomendaciones.

Gran Modelo de Lenguaje de Razonamiento

Gran modelo de lenguaje que genera tokens de razonamiento o pensamiento intermedios para mejorar la exactitud de la respuesta.

Detalles

Grandes Modelos de Lenguaje

Algoritmos de aprendizaje profundo entrenados en conjuntos de datos a gran escala que pueden reconocer, resumir, traducir, predecir y generar contenido para una amplia gama de casos de uso.

Detalles

Texto a Imagen

Genera imágenes a partir de indicaciones de texto.

Detalles

Recomendaciones

Ofrece resultados personalizados en servicios orientados al usuario, como redes sociales o sitios web de comercio electrónico, al comprender las interacciones entre los usuarios y los elementos de servicio, como productos o anuncios.

Detalles

Detección de Objetos (ligero)

Encuentra instancias de objetos del mundo real como rostros, bicicletas y edificios en imágenes o videos y especifica un cuadro delimitador alrededor de cada uno.

Detalles

Red Neuronal Gráfica

Usa redes neuronales diseñadas para trabajar con datos estructurados como grafos.

Detalles

Voz a Texto

Convierte el lenguaje hablado en texto escrito.

Detalles

Resultados de NVIDIA en los Análisis de Referencia MLPerf

La plataforma NVIDIA logró el tiempo más rápido para entrenar en los siete análisis de referencia MLPerf v5.1 Training. Blackwell Ultra hizo su debut, ofreciendo grandes avances en el preentrenamiento y el ajuste de grandes modelos de lenguaje, gracias a mejoras arquitectónicas y a métodos de entrenamiento NVFP4 innovadores que aumentan el desempeño y cumplen con los estrictos requisitos de precisión de MLPerf. NVIDIA también aumentó el desempeño de preentrenamiento de Blackwell Llama 3.1 405B a escala en 2.7 veces a través de una combinación de duplicación de la escala y grandes aumentos en el desempeño por GPU habilitados por NVFP4. NVIDIA también estableció récords de desempeño en los dos análisis de referencia recientemente agregados (Llama 3.1 8B y FLUX.1), a la vez que continúa teniendo récords de desempeño en análisis de referencia existentes de recomendaciones, detección de objetos y redes neuronales gráficas.

NVIDIA Blackwell Ultra Ofrece un Gran Salto en el Debut de MLPerf Training

Los resultados de MLPerf™ Training v5.0 y v5.1 se recuperaron de www.mlcommons.org el 12 de noviembre de 2025, de las siguientes entradas: 4.1-0050, 5.0-0014, 5.0-0067, 5.0-0076, 5.1-0058, 5.1-0060. El nombre y el logotipo MLPerf™ son marcas comerciales de MLCommons Association en los Estados Unidos y otros países. Todos los derechos reservados. El uso no autorizado está estrictamente prohibido. Consulte www.mlcommons.org para obtener más información.

Ritmo Anual y Codiseño Extremo para un Liderazgo en Entrenamiento Sostenido

La plataforma NVIDIA ofreció el tiempo de entrenamiento más rápido en todos los análisis de referencia de MLPerf Training v5.1, con innovaciones en chips, sistemas y software que permiten un liderazgo sostenido en el desempeño del entrenamiento, como lo demuestran los datos de desempeño estándar de la industria y revisados por pares.

Desempeño a Máxima Escala

Benchmark Time to Train
LLM Pretraining (Llama 3.1 405B) 10 minutes
LLM Pretraining (Llama 3.1 8B) 5.2 minutes
LLM Fine-Tuning (Llama 2 70B LoRA) 0.40 minutes
Image Generation (FLUX.1) 12.5 minutes
Recommender (DLRM-DCNv2) 0.71 minutes
Graph Neural Network (R-GAT) 0.84 minutes
Object Detection (RetinaNet) 1.4 minutes

Los resultados de MLPerf™ Training v5.0 y v5.1 se recuperaron de www.mlcommons.org el 12 de noviembre de 2025, de las siguientes entradas: 5.0-0082, 5.1-0002, 5.1-0004, 5.1-0060, 5.1-0070, 5.1-0072. El nombre y el logotipo MLPerf™ son marcas comerciales de MLCommons Association en los Estados Unidos y otros países. Todos los derechos reservados. El uso no autorizado está estrictamente prohibido. Consulte www.mlcommons.org para obtener más información.

Blackwell Ultra Establece Nuevos Récords de Inferencia de Razonamiento en MLPerf Inference v5.1

La plataforma NVIDIA estableció muchos nuevos récords en MLPerf Inference v5.1 (incluso en las nuevas y desafiantes pruebas de razonamiento DeepSeek-R1 y Llama 3.1 405B Interactive) y continúa teniendo todos los récords de desempeño de MLPerf Inference por GPU en la categoría de centros de datos. El sistema GB300 NVL72, basado en la arquitectura de GPU NVIDIA Blackwell Ultra, hizo su debut solo seis meses después de NVIDIA Blackwell, estableciendo nuevos récords en el análisis de referencia de inferencia de razonamiento DeepSeek-R1. Y NVIDIA Dynamo también hizo su debut en esta ronda, con su servicio desagregado, aumentando drásticamente el desempeño de cada GPU Blackwell en Llama 3.1 405B Interactive. El desempeño y el ritmo de innovación en la plataforma de NVIDIA permiten una mayor inteligencia, un mayor potencial de ingresos para fábricas de IA y un menor costo por millón de tokens.

La Plataforma de NVIDIA Tiene Todos los Récords por GPU de Centros de Datos en MLPerf Inference

Benchmark Offline Server Interactive
DeepSeek-R1 5,842 Tokens/Second 2,907 Tokens/Second *
Llama 3.1 405B 224 Tokens/Second 170 Tokens/Second 138 Tokens/Second
Llama 2 70B 99.9% 12,934 Tokens/Second 12,701 Tokens/Second 7,856 Tokens/Second
Llama 3.1 8B 18,370 Tokens/Second 16,099 Tokens/Second 15,284 Tokens/Second
Mistral 8x7B 16,099 Tokens/Second 16,131 Tokens/Second *
Stable Diffusion XL 4.07 Samples/Second 3.59 Queries/Second *
DLRMv2 99% 87,228 Tokens/Second 80,515 Tokens/Second *
DLRMv2 99.9% 48,666 Tokens/Second 46,259 Tokens/Second *
RetinaNet 1,875 samples/second/GPU 1,801 queries/second/GPU *
Whisper 5,667 Tokens/Second * *
Graph Neural Network 81,404 Tokens/Second * *

* Escenarios que no forman parte de los análisis de referencia MLPerf Inference v5.0 o v5.1.

MLPerf Inference v5.0 y v5.1, División Cerrada. Resultados recuperados de www.mlcommons.org el 9 de septiembre de 2025. Los resultados de la plataforma NVIDIA provienen de las siguientes entradas: 5.0-0072, 5.1-0007, 5.1-0053, 5.1-0079, 5.1-0028, 5.1-0062, 5.1-0086, 5.1-0073, 5.1-0008, 5.1-0070,5.1-0046, 5.1-0009, 5.1-0060, 5.1-0072. 5.1-0071, 5.1-0069 El desempeño por chip se obtiene dividiendo el rendimiento total por la cantidad de chips reportados. El desempeño por chip no es una métrica principal de MLPerf Inference v5.0 o v5.1. El nombre y el logotipo MLPerf son marcas comerciales registradas y no registradas de MLCommons Association en los Estados Unidos y otros países. Todos los derechos reservados. El uso no autorizado está estrictamente prohibido. Consulte http://www.mlcommons.org para obtener más información.

La Tecnología Detrás de los Resultados

La complejidad de la IA exige una estrecha integración entre todos los aspectos de la plataforma. Como quedó demostrado en los análisis de referencia MLPerf, la plataforma de IA de NVIDIA ofrece un desempeño líder con la GPU más avanzada del mundo, tecnologías de interconexión potentes y escalables y software de vanguardia. Por lo tanto, es una solución integral que se puede implementar en el centro de datos, en la nube o en el perímetro de la red con resultados increíbles.

Software optimizado que acelera los flujos de trabajo de IA

El catálogo NGC™, un componente esencial de la plataforma de NVIDIA y de los resultados de entrenamiento e inferencia de MLPerf, es un centro de software de IA, HPC y análisis de datos optimizado para GPU que simplifica y acelera los flujos de trabajo integrales. Con más de 150 contenedores de nivel empresarial (incluidas cargas de trabajo para IA generativa, IA conversacional y sistemas de recomendación), cientos de modelos de IA y SDK específicos de la industria que se pueden implementar en las instalaciones, en la nube o en el perímetro, NGC permite a los científicos de datos, investigadores y desarrolladores crear soluciones de primer nivel, recopilar información y ofrecer valor empresarial más rápido que nunca.

Infraestructura de IA Líder

Lograr resultados de primer nivel en entrenamiento e inferencia requiere una infraestructura diseñada específicamente para los desafíos de IA más complejos del mundo. La plataforma de IA de NVIDIA ofreció un desempeño líder impulsado por las plataformas NVIDIA Blackwell y Blackwell Ultra, que incluyen los sistemas NVIDIA GB300 NVL72 y GB200 NVL72, NVLink y NVLink Switch, y Quantum InfiniBand. Estos son el corazón de las fábricas de IA impulsadas por la plataforma de centros de datos de NVIDIA, el motor detrás de nuestro desempeño de referencia.

Además, los sistemas NVIDIA DGX™ ofrecen la escalabilidad, la implementación rápida y la increíble potencia de computación que permiten a todas las empresas desarrollar una infraestructura de IA de primer nivel. 

Posibilitar la IA Generativa en el Perímetro con un Desempeño Transformador

NVIDIA Jetson Orin ofrece una capacidad de cálculo de IA sin precedentes, una gran memoria unificada y pilas de software completas, que ofrecen una eficiencia energética superior para impulsar las aplicaciones generativas de IA más recientes. Es capaz de hacer una inferencia rápida de cualquier modelo de IA generativa gracias a la arquitectura Transformer, proporcionando un desempeño superior en el perímetro en MLPerf.

Más información sobre el desempeño en inferencia y el entrenamiento de nuestros centros de datos.

Grandes Modelos de Lenguaje

MLPerf Training usa el modelo de lenguaje generativo Llama 3.1 con 405 mil millones de parámetros y una longitud de secuencia de 8192 para la carga de trabajo de preentrenamiento de LLM con el conjunto de datos c4 (v3.0.1). Para la prueba de ajuste fino de LLM, usa el modelo Llama 2 70B con el conjunto de datos GovReport, con longitudes de secuencia de 8,192. Llama 3.1 8B también usa el conjunto de datos C4 con longitudes de secuencia de 8,192.

MLPerf Inference usa el modelo Llama 3.1 405B con los siguientes conjuntos de datos: LongBench, RULER y resumen de GovReport; el modelo Llama 2 70B con el conjunto de datos OpenORCA; el modelo Mixtral 8x7B con los conjuntos de datos OpenORCA, GSM8K y MBXP; y el modelo Llama 3.1 8B con el conjunto de datos CNN-DailyMail.

Texto a imagen

MLPerf Training usa el modelo de texto a imagen FLUX.1 entrenado con el conjunto de datos CC12M con el conjunto de datos COCO 2014 para la evaluación.

MLPerf Inference usa el modelo de texto a imagen Stable Diffusion XL (SDXL) con un subconjunto de 5,000 prompts del conjunto de datos coco-val-2014.

Recomendaciones

MLPerf Training e Inference utilizan el Modelo de recomendación de aprendizaje profundo v2 (DLRMv2) que emplea DCNv2 de capas transversales y un conjunto de datos multi-hot sintetizado a partir del conjunto de datos Criteo.

Detección de Objetos (ligero)

MLPerf Training utiliza Single-Shot Detector (SSD) con la base ResNeXt50 en un subconjunto del conjunto de datos Google OpenImages.

LLM de Razonamiento

MLPerf Inference usa el modelo DeepSeek-R1 con muestras de los siguientes conjuntos de datos: AIME, MATH500, GPQA-Diamond, MMLU-Pro, LiveCodeBench.

Procesamiento de Lenguaje Natural (NLP)

MLPerf Training utiliza Representaciones de Codificadores Bidireccionales de Transformers (BERT) en el conjunto de datos Wikipedia 2020/01/01.

Red Neuronal Gráfica

MLPerf Training usa R-GAT con el conjunto de datos Illinois Graph Benchmark (IGB) - Heterogéneo.

Voz a Texto

MLPerf Inference usa Whisper-Large-V3 con el conjunto de datos LibriSpeech.

Servidor

4X

Sin conexión

3.7X

Superchip de IA

Transistores 208B

Motor Transformer de 2.ª Generación

Núcleo Tensor FP4/FP6

NVLINK de 5.ª Generación

Escala a 576 GPU

Motor RAS

Autoprueba 100 % en Sistema

IA Segura

Cifrado de Desempeño Completo y TEE

Motor de Descompresión

800 GB/segundo