Optimice el rendimiento de las cargas de trabajo de IA en la infraestructura de IA de NVIDIA.
Descripción General
La evaluación comparativa de desempeño de NVIDIA es un conjunto de herramientas, recetas y servicios que eliminan las conjeturas a la hora de medir el desempeño de las cargas de trabajo y la infraestructura de IA. La evaluación comparativa de desempeño de NVIDIA proporciona un medio estandarizado y objetivo para medir el desempeño en todas las plataformas, lo que es esencial para optimizar las cargas de trabajo de IA y acelerar los resultados.
Optimizar el desempeño de la carga de trabajo de IA en cualquier infraestructura acelerada de NVIDIA con el conjunto de herramientas, servicios y recetas de la evaluación comparativa de desempeño de NVIDIA.
Mediante el Explorador de Rendimiento, los usuarios pueden identificar la cantidad de GPU ideal, lo que sirve para minimizar el tiempo total y los costos de entrenamiento. El objetivo es identificar la cantidad correcta de GPU para una carga de trabajo determinada que maximice el rendimiento y minimice los gastos, en todos los proyectos y equipos.
Obtenga el máximo provecho de sus entornos de cargas de trabajo de IA y libere todo el potencial de su infraestructura de IA con la evaluación comparativa de desempeño de NVIDIA.
Determine qué plataforma puede ofrecer el tiempo más rápido de entrenamiento o la escala de GPU deseada y a qué costo utilizando datos de rendimiento en tiempo real y de extremo a extremo.
Perfeccione y optimice sus cargas de trabajo de IA de acuerdo con métricas integrales adaptadas al rendimiento de las aplicaciones modernas de IA generativa.
Vea más allá de las GPU, incluyendo el software de infraestructura, las plataformas de nube y las configuraciones de aplicaciones, para obtener una vista holística del rendimiento de la carga de trabajo.
Obtenga un medio estandarizado y objetivo de medir el rendimiento de la plataforma y comprenda el rendimiento esperado para cargas de trabajo o casos de uso dados.
En MLPerf Inference v6.0 (abril de 2026), los sistemas que funcionan con las GPU NVIDIA Blackwell Ultra (GB300 NVL72) ofrecieron el mayor rendimiento en la gama más amplia de modelos y escenarios. En DeepSeek-R1, GB300 NVL72 alcanzó los 2.5 millones de tokens por segundo, lo que representa un rendimiento de tokens hasta 2.7 veces mayor en comparación con el debut de GB300 NVL72 solo seis meses antes, como resultado de las actualizaciones de software TensorRT-LLM.
Al medir la rentabilidad de la inferencia de IA, es importante mirar más allá de los precios de computación o los FLOPs por dólar porque estas métricas ofrecen una perspectiva incompleta. La métrica más importante para la rentabilidad de la inferencia de IA es el costo por token o la relación precio-desempeño que se ofrece realmente, especialmente en modelos de MoE y razonamiento. NVIDIA GB300 NVL72 ofrece una inferencia de IA a USD 0.123 por millón de tokens a 116 TPS/interactividad con el usuario mediante NVIDIA Dynamo y TensorRT™-LLM, el costo más bajo por token entre las principales plataformas, según los análisis de referencia de SemiAnalysis InferenceX al mes de abril de 2026.
NVIDIA Blackwell B200 logra USD 0.02 por millón de tokens en GPT-OSS-120B utilizando TensorRT-LLM, según los análisis de referencia de SemiAnalysis InferenceX al mes de abril de 2026, una mejora de 5 veces en comparación con los costos en el día de lanzamiento de USD 0.11/M de tokens que se lograron solo a través de la optimización de software.
NVIDIA B300 (Blackwell Ultra) se diseñó para cumplir con las mayores demandas de capacidad de computación y memoria de la inferencia de IA en razonamiento y contexto largo. Con un aumento de 1.5 veces en el desempeño de FP4 denso, dos veces el desempeño de atención y 1.5 veces más memoria HBM en comparación con NVIDIA B200, B300 puede aumentar el rendimiento de razonamiento de IA para las longitudes de contexto más grandes. GB300 NVL72 ofrece una inferencia de IA a USD 0.123 por millón de tokens a 116 TPS/interactividad con el usuario mediante NVIDIA Dynamo y TensorRT-LLM, el costo más bajo por token entre las principales plataformas, según los análisis de referencia de SemiAnalysis InferenceX al mes de abril de 2026.
Hay algunos análisis de referencia de inferencia de IA independientes de terceros que se usan ampliamente en toda la industria en la actualidad. MLPerf Inference es el análisis de referencia estándar en la industria de MLCommons que mide el rendimiento y la latencia en todas las cargas de trabajo estandarizadas. InferenceX, de SemiAnalysis, es el primer análisis de referencia independiente para medir el costo total de la computación en diversos modelos y escenarios del mundo real. InferenceX v2 extiende esto para evaluar toda la curva de frontera de Pareto. Al mes de abril de 2026, NVIDIA Blackwell Ultra (GB300 NVL72) lidera las tres suites de referencia.
Logre un desempeño óptimo de las cargas de trabajo de IA por TCO en asociación con NVIDIA, con puntos de referencia validados basados en datos.
Acceda a la documentación técnica para software modular que ayuda a los socios a operar la infraestructura de IA y ofrecer servicios de IA.