Optimice el rendimiento de las cargas de trabajo de IA en la infraestructura de IA de NVIDIA.
Descripción
Las pruebas de referencia del rendimiento de NVIDIA son un conjunto de herramientas, recetas y servicios que permiten eliminar las conjeturas a la hora de medir el rendimiento de las cargas de trabajo e infraestructura de IA. Las pruebas de referencia del rendimiento de NVIDIA facilitan un medio estandarizado y objetivo para calibrar el rendimiento en todas las plataformas, lo cual es esencial para optimizar las cargas de trabajo de IA y acelerar los resultados.
Optimice el rendimiento de la carga de trabajo de IA en cualquier infraestructura acelerada de NVIDIA con el conjunto de herramientas, servicios y recetas de pruebas de referencia del rendimiento de NVIDIA.
Utilizando Performance Explorer, los usuarios pueden identificar el número de GPU ideal que minimiza tanto el tiempo total de entrenamiento como los costes. El objetivo es identificar el número adecuado de tarjetas GPU para una carga de trabajo determinada que maximice la capacidad de procesamiento y minimice los gastos, en todos los proyectos y equipos.
Saque el máximo partido a sus entornos de cargas de trabajo de IA y aproveche todo el potencial de su infraestructura de IA con las pruebas de referencia de rendimiento de NVIDIA.
Determine qué plataforma puede ofrecer el tiempo de entrenamiento más rápido o el escalado de GPU deseado y a qué coste, utilizando datos de rendimiento en tiempo real y de extremo a extremo.
Ajuste y optimice sus cargas de trabajo de IA según métricas de extremo a extremo adaptadas al rendimiento de las aplicaciones de IA generativa modernas.
Evalúe no solamente las GPU, sino además, el software de infraestructura, las plataformas en la nube y las configuraciones de aplicaciones, para obtener una visión holística del rendimiento de las cargas de trabajo.
Obtenga un medio estandarizado y objetivo para calibrar el rendimiento de la plataforma y comprender el rendimiento esperado para cargas de trabajo o casos de uso determinados.
En MLPerf Inference v6.0 (abril de 2026), los sistemas con tecnología de las GPU NVIDIA Blackwell Ultra (GB300 NVL72) proporcionaron el mayor rendimiento en la gama más amplia de modelos y escenarios. En DeepSeek-R1, GB300 NVL72 suministró 2,5 millones de tokens por segundo, lo que supone un rendimiento de tokens hasta 2,7 veces superior en comparación con las primeras presentaciones de GB300 NVL72 (realizadas tan solo seis meses antes), como resultado de las actualizaciones de software TensorRT-LLM.
Al medir la rentabilidad de la inferencia de IA, es importante ir más allá de los precios de computación o los FLOPS por dólar, ya que estas métricas proporcionan una perspectiva incompleta. La métrica más importante para la rentabilidad de la inferencia de IA es el coste por token o la relación precio-rendimiento realmente obtenida, especialmente en modelos de MoE y de razonamiento. NVIDIA GB300 NVL72 proporciona inferencia de IA a 0,123 USD por millón de tokens con una interactividad de 116 TPS por usuario utilizando NVIDIA Dynamo y TensorRT™-LLM, el menor coste por token entre las principales plataformas, según las pruebas de referencia de SemiAnalysis InferenceX de abril de 2026.
NVIDIA Blackwell B200 logra un coste de 0,02 USD por millón de tokens en GPT-OSS-120B utilizando TensorRT-LLM, de acuerdo con las pruebas de referencia de SemiAnalysis InferenceX de abril de 2026, lo que supone una mejora de 5 veces en comparación con los costes de lanzamiento de 0,11 USD por millón de tokens logrados únicamente mediante optimización de software.
NVIDIA B300 (Blackwell Ultra) se diseñó para satisfacer las crecientes exigencias de capacidad de computación y memoria de la inferencia de IA de contexto largo y de razonamiento. Con un aumento de 1,5 veces en el rendimiento FP4 denso, el doble de rendimiento de atención y 1,5 veces más de memoria HBM en comparación con NVIDIA B200, B300 puede aumentar el rendimiento de razonamiento de IA para las mayores longitudes de contexto. GB300 NVL72 proporciona inferencia de IA a 0,123 USD por millón de tokens con una interactividad de 116 TPS por usuario utilizando NVIDIA Dynamo y TensorRT-LLM, el menor coste por token entre las principales plataformas, según las pruebas de referencia de SemiAnalysis InferenceX de abril de 2026.
Existen algunas pruebas de referencia de inferencia de IA independientes de terceros que se utilizan ampliamente en todo el sector en la actualidad. MLPerf Inference es la prueba de referencia estándar del sector de MLCommons y mide el rendimiento y la latencia en cargas de trabajo estandarizadas. InferenceX, de SemiAnalysis, es la primera prueba de referencia independiente para medir el coste total de computación en diversos modelos y escenarios del mundo real. InferenceX v2 amplía este enfoque para evaluar toda la curva de frontera de Pareto. Según los datos disponibles en abril de 2026, NVIDIA Blackwell Ultra (GB300 NVL72) lidera los tres conjuntos de pruebas de referencia.
Alcance un rendimiento óptimo de las cargas de trabajo de IA por coste total de propiedad, entrando en colaboración con NVIDIA y empleando pruebas de referencia validadas basadas en datos.
Acceda a la documentación técnica para software modular que ayuda a los partners a operar la infraestructura de IA y prestar servicios de IA.