Soluciones de Inferencia de IA

Plataforma de Inferencia de NVIDIA

Ofrece el costo de tokens más bajo y el mejor costo total de propiedad (TCO) para impulsar las fábricas de IA más eficientes, rentables y con mayor desempeño.

Comenzar

Lea la Serie | Análisis de Referencia de Desempeño | Para Desarrolladores

Descripción General
Desempeño
Beneficios
Plataforma
Historias de Clientes
Recursos
Próximos Pasos

Descripción General
Desempeño
Beneficios
Plataforma
Historias de Clientes
Recursos
Próximos Pasos

Comenzar

Descripción General

Domine la Economía de Tokens de IA con la Inferencia de Pila Completa de NVIDIA

La inferencia de IA, cómo experimentamos la IA a través de chatbots, copilotos y herramientas creativas, está escalando a un ritmo exponencial doble. La adopción de los usuarios se está acelerando, mientras los tokens de IA generados por interacción, impulsados por workflows basados en agentes, razonamiento de largo alcance y modelos de combinación de expertos (MoE) aumentan en paralelo.

Para permitir la inferencia a esta escala masiva, NVIDIA ofrece una arquitectura a escala de centro de datos con ritmo anual. Nuestro diseño conjunto extremo de hardware y software ofrece saltos de orden de magnitud en el desempeño y el costo de tokens más bajo, lo que hace que las experiencias de IA avanzadas sean económicamente viables a escala.

NVIDIA GB300 NVL72 ofrece 50 veces más tokens por vatio y un costo por token 35 veces menor en comparación con Hopper™, lo que maximiza los ingresos dentro del mismo presupuesto de energía e impulsa márgenes de ganancia más altos. Las optimizaciones continuas de software extraen el máximo desempeño a escala de chip, bastidor y centro de datos, lo que mejora aún más el retorno de la inversión a lo largo del tiempo.

Repensar el TCO de la IA: Por Qué el Costo por Token es la Única Métrica que Importa

El costo por token es la métrica que define el costo total de propiedad (TCO) de la inferencia, y NVIDIA Blackwell ofrece el costo por token más bajo en la industria.

Lea el Blog

Los Proveedores Líderes de Inferencia Logran el Costo por Token Más Bajo en NVIDIA Blackwell

Baseten, Deep Infra, Fireworks IA y Together IA están reduciendo el costo por token en todas las industrias con pilas de inferencia optimizadas que se ejecutan en la plataforma NVIDIA Blackwell.

Lea el Blog

El Desempeño de la Inferencia Reduce el Costo de los Tokens

Más Información

Haga clic para Ampliar la Imagen.

Los resultados de DeepSeek-R1 8K/1K muestran un beneficio de desempeño y una oportunidad de ingresos 15 veces mayor para NVIDIA Blackwell GB200 NVL72 en comparación con Hopper H200.

¿Cuáles son los Factores que Reducen el Costo de los Tokens?

Muchas empresas que evalúan la infraestructura de IA se centran en el numerador: el costo por GPU por hora. Para las implementaciones en la nube, esta es la tarifa por hora pagada a un proveedor de nube; para las implementaciones en las instalaciones, es el costo efectivo por hora derivado de la amortización de la infraestructura de su propiedad. Sin embargo, la verdadera clave para reducir el costo de los tokens radica en el denominador: la maximización del rendimiento de los tokens entregados.

Ese denominador tiene dos implicaciones empresariales.

1. Minimice el costo de los tokens: Cuando este aumento en la producción de tokens se refleja a través de la ecuación de costos, reduce el costo por token, que es lo que hace crecer el margen de ganancia en cada interacción servida.

2. Maximice los ingresos: Más tokens entregados por segundo también se traduce en más tokens por megavatio, lo que significa más inteligencia para usar en productos y servicios impulsados por IA, lo que genera más ingresos a partir de la misma inversión en infraestructura.

El Costo por Token es la Métrica Clave para el TCO de la Infraestructura de IA

Si solo se analiza el costo de computación, la plataforma NVIDIA Blackwell parece costar aproximadamente dos veces más que NVIDIA Hopper™, pero el costo de computación no dice nada sobre el resultado que la inversión compra. Un análisis de meros FLOPS por dólar sugiere una ventaja de dos veces para NVIDIA Blackwell en comparación con la arquitectura NVIDIA Hopper.

Sin embargo, el resultado real difiere en órdenes de magnitud: NVIDIA Blackwell ofrece una producción de tokens por megavatio más de 50 veces mayor que Hopper, lo que genera un costo casi 35 veces menor por millón de tokens.

Métrica	NVIDIA Hopper (HGX H200)	NVIDIA Blackwell (GB300 NVL72)	NVIDIA Blackwell en Relación con Hopper
Costo por GPU por Hora ($)	$1.41	$2.65	2 Veces
FLOPS por Dólar (PFLOPS)	2.8	5.6	2 Veces
Tokens por Segundo por GPU	90	6.000	65 veces
Tokens por Segundo por MW	54 mil	2.8 millones	50 veces
Costo por Millón de Tokens ($)	$4.20	$0.12	35 veces menor

Beneficios

El Más Alto Desempeño Maximiza los Ingresos

Con un diseño conjunto extremo de hardware y software, NVIDIA GB300 NVL72 ofrece 50 veces más tokens por vatio que Hopper, lo que maximiza los ingresos de las fábricas de IA dentro del mismo presupuesto energético. Las optimizaciones continuas de software extraen el máximo desempeño a escala de chip, bastidor y centro de datos, lo que mejora aún más el retorno de la inversión a lo largo del tiempo.

El Costo Más Bajo de Token Expande los Márgenes de Ganancia

El sistema NVIDIA GB300 NVL72 ofrece un costo por token 35 veces menor que la plataforma NVIDIA Hopper, lo que impulsa márgenes de ganancia más altos para las fábricas de IA. Con cada generación, las mejoras en el desempeño superan con creces los costos de infraestructura, lo que crea una mejor economía para permitir experiencias de IA avanzadas a escala masiva.

La Pila Completa Optimiza Cada Modelo y Caso de Uso

NVIDIA admite todos los modelos de IA generativa, ML tradicional, computación científica, biología e IA física. Desde las aplicaciones en tiempo real sensibles a la latencia hasta el procesamiento por lotes de alto rendimiento, NVIDIA ofrece el mejor desempeño para cada caso de uso. La plataforma proporciona la máxima flexibilidad y capacidad de programación para elegir la configuración óptima para la carga de trabajo y los requisitos empresariales en evolución.

La Integración Nativa Acelera la Implementación

El software de NVIDIA listo para la producción, como Dynamo y TensorRT™ LLM, y la integración nativa con frameworks líderes como PyTorch, vLLM, SGLang y llm-d, ofrecen la pila de inferencia de IA más sólida. A medida que las arquitecturas de modelos y las técnicas de inferencia evolucionan rápidamente, la pila de NVIDIA garantiza la ruta más rápida desde la innovación hasta la producción.

Plataforma

Codeseño Extremo de Hardware y Software

Un hardware poderoso sin orquestación inteligente desperdicia su potencial; un gran software sin hardware rápido implica un desempeño de inferencia lento. La plataforma de inferencia de NVIDIA ofrece una solución de pila completa optimizada de forma continua con computación, redes, almacenamiento y software codiseñados para permitir el más alto desempeño en diversas cargas de trabajo.

Explore algunas de las innovaciones clave de hardware y software de NVIDIA.

NVIDIA Vera Rubin NVL72

La plataforma NVIDIA Vera Rubin ofrece un desempeño por vatio diez veces mejor y un costo por token diez veces menor que Blackwell. Mediante un diseño conjunto extremo, la plataforma combina GPU Rubin para un prellenado contextual masivo con LPX para una decodificación rápida, lo que elimina la compensación entre velocidad y escala.

Explore Siete Chips Nuevos, Una Supercomputadora de IA

NVIDIA Grace Blackwell Ultra NVL72

GB300 NVL72 cuenta con 72 GPU B300 conectadas con NVLink™ de 130 TB/s, para que puedan comunicarse sin problemas entre sí y habilitar modelos masivos de combinación de expertos a escala.

Experimente un Desempeño Superior en el Razonamiento de IA Sobre GB200 NVL72

NVIDIA Dynamo

NVIDIA Dynamo es un framework distribuido de servicio de inferencia de código abierto para implementar modelos en entornos de múltiples nodos a escala de fábrica de IA. Optimiza el servicio distribuido al desagregar la inferencia, mejorando así el enrutamiento y extendiendo la memoria a través del almacenamiento en caché de datos a niveles de almacenamiento rentables.

Implemente sin Dificultades en Múltiples Nodos con Dynamo

TensorRT LLM

TensorRT LLM es una biblioteca de código abierto para la inferencia de LLM de alto desempeño y en tiempo real optimizada de forma continua en las GPU de NVIDIA. Con un tiempo de ejecución de Python modular, autoría nativa de PyTorch y una API de producción estable, está optimizado para maximizar el rendimiento, minimizar los costos y ofrecer experiencias rápidas al usuario.

Optimice la Inferencia con TensorRT LLM

Decodificación de los Paretos de Desempeño

¿Alguna vez se ha preguntado cómo las compensaciones complejas de la IA se traducen en resultados en el mundo real? Explore diferentes puntos de las curvas de desempeño que presentamos a continuación para ver de primera mano cómo el diseño conjunto extremo de hardware y software hace de NVIDIA Blackwell Ultra la opción más rentable, eficiente y con mejor rendimiento.

TPS / usuario

–

TPS / MW

–

Experiencia de Chat Simulado

DeepSeek R1 ISL = 32K, OSL = 8K, GB300 NVL72 con desagregación FP4 Dynamo. H100 con procesamiento por lotes en vuelo FP8. El desempeñeo proyectado puede cambiar.

¿Se pregunta cómo cada configuración se traduce en experiencias de usuario reales? Explore las curvas en solitario o con la guía de TJ haciendo clic en “Explore con TJ” y observe cómo cobran vida en el chat simulado de la derecha.

Explore Más con el Configurador de IA de NVIDIA Dynamo

Historias de Clientes

Cómo impulsan la innovación los líderes del sector con la inferencia de IA

Más Historias de Clientes

Amdocs

Acelerar el desempeño de la IA generativa y reducir los costos

Lea cómo Amdocs creó amAIz, una plataforma de IA generativa específica de un dominio para las empresas de telecomunicaciones, mediante el uso de microservicios de inferencia NVIDIA DGX™ Cloud y NVIDIA NIM para mejorar la latencia, aumentar la precisión y reducir los costos.

Lea el Estudio de Caso

Snapchat

Mejora de la compra de ropa con IA

Descubra cómo Snapchat mejoró la experiencia de compra de ropa y el reconocimiento óptico de caracteres compatible con emojis mediante Triton Inference Server para escalar, reducir los costos y acelerar el tiempo de producción.

Lea el Estudio de Caso

Amazon

Acelere la satisfacción del cliente

Descubra cómo Amazon mejoró la satisfacción del cliente al acelerar su inferencia 5 veces más rápido con TensorRT.

Lea el Estudio de Caso

Recursos

Lo último en recursos de inferencia de IA

Blogs
Sesiones
Capacitación
Videos

Vea Más Sesiones

Capacitación para Profesionales de Infraestructura de IA

Aprenda a implementar, ejecutar y optimizar la infraestructura de IA.

Explora Ahora

Más Información Sobre la Implementación de Fábricas de IA

Ya sea que su equipo sea responsable de configurar switches y validar el cableado, o de instalar software de administración de clústeres y orquestar cargas de trabajo de GPU, esta capacitación proporciona la orientación estructurada para hacerlo bien.

Ver la Ruta de Aprendizaje

Introducción a la Inferencia: Cómo Ejecutar Modelos de IA en una GPU

Aprenda a configurar y ejecutar la inferencia de IA en las GPU en Google Cloud. Esta ruta le permite comenzar con el pipeline de inferencia, los formatos de modelos y las métricas de desempeño a través de ejemplos prácticos.

Comenzar

Vea Más Capacitaciones

Diseño Conjunto Extremo para una Tokenómica e IA Eficientes a Escala

A medida que la IA cambia al razonamiento en tiempo real, el desafío clave es reducir el costo por token (el costo de generación de inteligencia), a la vez que se manejan cargas de trabajo masivas de modelos como MoE. Lograr esto requiere una optimización estrecha de toda la pila, lo que hace que el diseño integral de sistemas sea la forma más efectiva de escalar una IA eficiente y con un alto rendimiento de la inversión.

Vea el Video

Por qué el costo por token es la única métrica que necesita para el TCO de IA

En la actualidad, los data centers de IA son fábricas de tokens. El costo por token captura el desempeño integral en las GPU, las CPU, las redes, el software y los ecosistemas, lo que lo convierte en el driver clave de la rentabilidad y la escalabilidad reales en la IA. NVIDIA ofrece el costo más bajo por token y el más alto desempeño por vatio, lo que maximiza los ingresos de las fábricas de IA.

Vea el Video

UneeQ

Cómo DeepL Desarrolló una Infraestructura de IA para la IA de Lenguaje en Tiempo Real

DeepL está aprovechando NVIDIA TensorRT LLM y la inferencia de NVFP4 en los sistemas NVIDIA GB200 NVL72 para entrenar modelos de mezcla de expertos (MoE), lo que avanza en su arquitectura de modelos para mejorar la eficiencia durante el entrenamiento y la inferencia, lo que establece nuevos puntos de referencia para el desempeño en IA.

Vea el Video

Vea Más Videos

Preguntas Frecuentes sobre el Costo Total de Propiedad (TCO) de la Plataforma de Inferencia de NVIDIA

GB300 NVL72 ofrece inferencia de IA a $0.123 por millón de tokens a 116 TPS/interactividad con el usuario mediante NVIDIA Dynamo y TensorRT™-LLM, el costo más bajo por token entre las principales plataformas, según los análisis de referencia de SemiAnalysis InferenceX al mes de abril de 2026.

NVIDIA Blackwell Ultra (GB300 NVL72) ofrece un rendimiento por megavatio hasta 50 veces mayor y un costo por token hasta 35 veces menor que NVIDIA Hopper para cargas de trabajo agénticas de baja latencia, gracias al diseño conjunto de hardware y software, según los análisis de referencia de SemiAnalysis InferenceX (primer trimestre de 2026). GB300 NVL72 combina 72 GPU Blackwell Ultra con 288 GB de HBM3e por GPU en un solo sistema a escala de bastidor, todo interconectado a través de NVIDIA NVLink Switch en una estructura NVLink unificada que ofrece 130 TB/s de ancho de banda. Esta arquitectura minimiza la latencia de comunicación de todo a todo, lo que permite a modelos de mezcla de expertos (MoE) a gran escala, como DeepSeek-R1, escalar el paralelismo de expertos de manera eficiente en hasta 72 GPU simultáneamente.

Solo el hecho de tener en cuenta los precios de computación o los FLOPs por dólar brinda una visión incompleta del TCO de inferencia. La métrica más importante para el costo total de propiedad de la inferencia de IA es el costo por token o la relación precio-desempeño que se ofrece realmente. GB300 NVL72 ofrece inferencia de IA a $0.123 por millón de tokens a 116 TPS/interactividad con el usuario mediante NVIDIA Dynamo y TensorRT-LLM, el costo más bajo por token entre las principales plataformas, según los análisis de referencia de SemiAnalysis InferenceX al mes de abril de 2026.

Al evaluar el TCO de inferencia, es importante observar la Mezcla de Expertos (MoE) y modelos de razonamiento a gran escala como DeepSeek-R1. Casi todos los LLM de código cerrado y abierto más recientes han adoptado arquitecturas MoE y de razonamiento debido a su inteligencia y eficiencia superiores. Al evaluar estos modelos para el TCO de inferencia, se garantiza que su análisis sea representativo de lo que probablemente se implemente.

La pila de software TensorRT-LLM y Dynamo de NVIDIA ofrece mejoras continuas en los costos de inferencia sin cambios de hardware. El costo por millón de tokens de NVIDIA Blackwell B200 se redujo de $0.11 en el lanzamiento a $0.02 en GPT-OSS-120B en dos meses, según los análisis de referencia de SemiAnalysis InferenceX al mes de abril de 2026, una mejora de 5 veces solo gracias al software. Cada versión de TensorRT-LLM normalmente ofrece ganancias en el rendimiento a través de la fusión de kernels, mejoras en la cuantificación y optimizaciones en la programación.

Próximos Pasos: Más Información Sobre el TCO de la Inferencia de IA

¿Todo Listo para Comenzar?

Explore todo lo que necesita para comenzar a desarrollar su aplicación de IA, incluyendo la documentación más reciente, los tutoriales, blogs técnicos y mucho más.

Comience a Desarrollar Empezar a Desarrollar

Encuentre el Hardware Correcto para sus Cargas de Trabajo de Inferencia

Las soluciones para data centers de NVIDIA están disponibles a través de socios seleccionados de la Red de Socios de NVIDIA (NPN). Explore opciones flexibles y asequibles para acceder a las últimas tecnologías de los data center de NVIDIA a través de nuestra red de socios.

Explore el NVIDIA Marketplace

Obtenga las Últimas Novedades sobre Inferencia de IA de NVIDIA

Regístrese para recibir las últimas noticias, actualizaciones y más sobre inferencia de IA de NVIDIA.

Manténgase al Día

Plataforma de Inferencia de NVIDIA

Domine la Economía de Tokens de IA con la Inferencia de Pila Completa de NVIDIA

Repensar el TCO de la IA: Por Qué el Costo por Token es la Única Métrica que Importa

Los Proveedores Líderes de Inferencia Logran el Costo por Token Más Bajo en NVIDIA Blackwell

El Desempeño de la Inferencia Reduce el Costo de los Tokens

¿Cuáles son los Factores que Reducen el Costo de los Tokens?

El Costo por Token es la Métrica Clave para el TCO de la Infraestructura de IA

El Más Alto Desempeño Maximiza los Ingresos

El Costo Más Bajo de Token Expande los Márgenes de Ganancia

La Pila Completa Optimiza Cada Modelo y Caso de Uso

La Integración Nativa Acelera la Implementación

Codeseño Extremo de Hardware y Software

NVIDIA Vera Rubin NVL72

NVIDIA Grace Blackwell Ultra NVL72

NVIDIA Dynamo

TensorRT LLM

Decodificación de los Paretos de Desempeño

Cómo impulsan la innovación los líderes del sector con la inferencia de IA

Acelerar el desempeño de la IA generativa y reducir los costos

Mejora de la compra de ropa con IA

Acelere la satisfacción del cliente

Lo último en recursos de inferencia de IA

Capacitación para Profesionales de Infraestructura de IA

Más Información Sobre la Implementación de Fábricas de IA

Introducción a la Inferencia: Cómo Ejecutar Modelos de IA en una GPU

Diseño Conjunto Extremo para una Tokenómica e IA Eficientes a Escala

Por qué el costo por token es la única métrica que necesita para el TCO de IA

Cómo DeepL Desarrolló una Infraestructura de IA para la IA de Lenguaje en Tiempo Real

Preguntas Frecuentes sobre el Costo Total de Propiedad (TCO) de la Plataforma de Inferencia de NVIDIA

¿Cuál es el costo total de propiedad o el costo por token más bajo para la inferencia de IA en 2026?

¿Cómo reduce NVIDIA Blackwell Ultra el costo total de propiedad (TCO) para la inferencia en 35 veces?

¿Cómo puedo calcular el costo total de propiedad (TCO) para la inferencia de IA?

¿Qué modelos debería ver al evaluar el TCO de inferencia?

¿Cómo ayuda el software a reducir el costo de los tokens con el tiempo?

¿Todo Listo para Comenzar?

Encuentre el Hardware Correcto para sus Cargas de Trabajo de Inferencia

Obtenga las Últimas Novedades sobre Inferencia de IA de NVIDIA

Reciba las últimas noticias de NVIDIA sobre IA