Descripción General
La inferencia de IA, cómo experimentamos la IA a través de chatbots, copilotos y herramientas creativas, está escalando a un ritmo exponencial doble. La adopción de los usuarios se está acelerando, mientras los tokens de IA generados por interacción, impulsados por workflows basados en agentes, razonamiento de largo alcance y modelos de combinación de expertos (MoE) aumentan en paralelo.
Para permitir la inferencia a esta escala masiva, NVIDIA ofrece una arquitectura a escala de centro de datos con ritmo anual. Nuestro diseño conjunto extremo de hardware y software ofrece saltos de orden de magnitud en el desempeño y el costo de tokens más bajo, lo que hace que las experiencias de IA avanzadas sean económicamente viables a escala.
NVIDIA GB300 NVL72 ofrece 50 veces más tokens por vatio y un costo por token 35 veces menor en comparación con Hopper™, lo que maximiza los ingresos dentro del mismo presupuesto de energía e impulsa márgenes de ganancia más altos. Las optimizaciones continuas de software extraen el máximo desempeño a escala de chip, bastidor y centro de datos, lo que mejora aún más el retorno de la inversión a lo largo del tiempo.
Muchas empresas que evalúan la infraestructura de IA se centran en el numerador: el costo por GPU por hora. Para las implementaciones en la nube, esta es la tarifa por hora pagada a un proveedor de nube; para las implementaciones en las instalaciones, es el costo efectivo por hora derivado de la amortización de la infraestructura de su propiedad. Sin embargo, la verdadera clave para reducir el costo de los tokens radica en el denominador: la maximización del rendimiento de los tokens entregados.
Ese denominador tiene dos implicaciones empresariales.
1. Minimice el costo de los tokens: Cuando este aumento en la producción de tokens se refleja a través de la ecuación de costos, reduce el costo por token, que es lo que hace crecer el margen de ganancia en cada interacción servida.
2. Maximice los ingresos: Más tokens entregados por segundo también se traduce en más tokens por megavatio, lo que significa más inteligencia para usar en productos y servicios impulsados por IA, lo que genera más ingresos a partir de la misma inversión en infraestructura.
Si solo se analiza el costo de computación, la plataforma NVIDIA Blackwell parece costar aproximadamente dos veces más que NVIDIA Hopper™, pero el costo de computación no dice nada sobre el resultado que la inversión compra. Un análisis de meros FLOPS por dólar sugiere una ventaja de dos veces para NVIDIA Blackwell en comparación con la arquitectura NVIDIA Hopper.
Sin embargo, el resultado real difiere en órdenes de magnitud: NVIDIA Blackwell ofrece una producción de tokens por megavatio más de 50 veces mayor que Hopper, lo que genera un costo casi 35 veces menor por millón de tokens.
| Métrica | NVIDIA Hopper (HGX H200) |
NVIDIA Blackwell (GB300 NVL72) |
NVIDIA Blackwell en Relación con Hopper |
| Costo por GPU por Hora ($) | $1.41 | $2.65 | 2 Veces |
| FLOPS por Dólar (PFLOPS) | 2.8 | 5.6 | 2 Veces |
| Tokens por Segundo por GPU | 90 | 6.000 | 65 veces |
| Tokens por Segundo por MW | 54 mil | 2.8 millones | 50 veces |
| Costo por Millón de Tokens ($) | $4.20 | $0.12 | 35 veces menor |
Beneficios
Con un diseño conjunto extremo de hardware y software, NVIDIA GB300 NVL72 ofrece 50 veces más tokens por vatio que Hopper, lo que maximiza los ingresos de las fábricas de IA dentro del mismo presupuesto energético. Las optimizaciones continuas de software extraen el máximo desempeño a escala de chip, bastidor y centro de datos, lo que mejora aún más el retorno de la inversión a lo largo del tiempo.
El sistema NVIDIA GB300 NVL72 ofrece un costo por token 35 veces menor que la plataforma NVIDIA Hopper, lo que impulsa márgenes de ganancia más altos para las fábricas de IA. Con cada generación, las mejoras en el desempeño superan con creces los costos de infraestructura, lo que crea una mejor economía para permitir experiencias de IA avanzadas a escala masiva.
NVIDIA admite todos los modelos de IA generativa, ML tradicional, computación científica, biología e IA física. Desde las aplicaciones en tiempo real sensibles a la latencia hasta el procesamiento por lotes de alto rendimiento, NVIDIA ofrece el mejor desempeño para cada caso de uso. La plataforma proporciona la máxima flexibilidad y capacidad de programación para elegir la configuración óptima para la carga de trabajo y los requisitos empresariales en evolución.
El software de NVIDIA listo para la producción, como Dynamo y TensorRT™ LLM, y la integración nativa con frameworks líderes como PyTorch, vLLM, SGLang y llm-d, ofrecen la pila de inferencia de IA más sólida. A medida que las arquitecturas de modelos y las técnicas de inferencia evolucionan rápidamente, la pila de NVIDIA garantiza la ruta más rápida desde la innovación hasta la producción.
Plataforma
Un hardware poderoso sin orquestación inteligente desperdicia su potencial; un gran software sin hardware rápido implica un desempeño de inferencia lento. La plataforma de inferencia de NVIDIA ofrece una solución de pila completa optimizada de forma continua con computación, redes, almacenamiento y software codiseñados para permitir el más alto desempeño en diversas cargas de trabajo.
Explore algunas de las innovaciones clave de hardware y software de NVIDIA.
Historias de Clientes
Recursos
GB300 NVL72 ofrece inferencia de IA a $0.123 por millón de tokens a 116 TPS/interactividad con el usuario mediante NVIDIA Dynamo y TensorRT™-LLM, el costo más bajo por token entre las principales plataformas, según los análisis de referencia de SemiAnalysis InferenceX al mes de abril de 2026.
NVIDIA Blackwell Ultra (GB300 NVL72) ofrece un rendimiento por megavatio hasta 50 veces mayor y un costo por token hasta 35 veces menor que NVIDIA Hopper para cargas de trabajo agénticas de baja latencia, gracias al diseño conjunto de hardware y software, según los análisis de referencia de SemiAnalysis InferenceX (primer trimestre de 2026). GB300 NVL72 combina 72 GPU Blackwell Ultra con 288 GB de HBM3e por GPU en un solo sistema a escala de bastidor, todo interconectado a través de NVIDIA NVLink Switch en una estructura NVLink unificada que ofrece 130 TB/s de ancho de banda. Esta arquitectura minimiza la latencia de comunicación de todo a todo, lo que permite a modelos de mezcla de expertos (MoE) a gran escala, como DeepSeek-R1, escalar el paralelismo de expertos de manera eficiente en hasta 72 GPU simultáneamente.
Solo el hecho de tener en cuenta los precios de computación o los FLOPs por dólar brinda una visión incompleta del TCO de inferencia. La métrica más importante para el costo total de propiedad de la inferencia de IA es el costo por token o la relación precio-desempeño que se ofrece realmente. GB300 NVL72 ofrece inferencia de IA a $0.123 por millón de tokens a 116 TPS/interactividad con el usuario mediante NVIDIA Dynamo y TensorRT-LLM, el costo más bajo por token entre las principales plataformas, según los análisis de referencia de SemiAnalysis InferenceX al mes de abril de 2026.
Al evaluar el TCO de inferencia, es importante observar la Mezcla de Expertos (MoE) y modelos de razonamiento a gran escala como DeepSeek-R1. Casi todos los LLM de código cerrado y abierto más recientes han adoptado arquitecturas MoE y de razonamiento debido a su inteligencia y eficiencia superiores. Al evaluar estos modelos para el TCO de inferencia, se garantiza que su análisis sea representativo de lo que probablemente se implemente.
La pila de software TensorRT-LLM y Dynamo de NVIDIA ofrece mejoras continuas en los costos de inferencia sin cambios de hardware. El costo por millón de tokens de NVIDIA Blackwell B200 se redujo de $0.11 en el lanzamiento a $0.02 en GPT-OSS-120B en dos meses, según los análisis de referencia de SemiAnalysis InferenceX al mes de abril de 2026, una mejora de 5 veces solo gracias al software. Cada versión de TensorRT-LLM normalmente ofrece ganancias en el rendimiento a través de la fusión de kernels, mejoras en la cuantificación y optimizaciones en la programación.
Próximos Pasos: Más Información Sobre el TCO de la Inferencia de IA