Soluciones de inferencia de IA

Plataforma de inferencia de NVIDIA

Impulsando las fábricas de IA más eficientes, más rentables y con mayor rendimiento.

Empezar

Leer la serie | Pruebas de referencia de rendimiento | Para desarrolladores

Descripción
Rendimiento
Ventajas
Plataforma
Historias de clientes
Recursos
Próximos pasos

Descripción
Rendimiento
Ventajas
Plataforma
Historias de clientes
Recursos
Próximos pasos

Empezar

Descripción

¿Cómo escalar la inferencia de IA de forma rentable?

La inferencia de IA —la forma en la que experimentamos la IA a través de chatbots, copilotos y herramientas creativas— se está escalando a un ritmo exponencial doble. La adopción por parte de los usuarios se está acelerando mientras que los tókenes de IA generados mediante interacción, impulsados por flujos de trabajo de agentes, razonamiento de pensamiento a largo plazo y modelos de mezcla de expertos (MoE), se incrementan vertiginosamente en paralelo.

Para permitir la inferencia a esta escala masiva, NVIDIA proporciona una arquitectura a escala de centro de datos con periodicidad anual. Nuestro diseño conjunto extremo de hardware y software proporciona saltos de rendimiento de orden de magnitud y reduce el coste por token, lo que hace que las experiencias de IA avanzadas sean económicamente viables a escala.

NVIDIA GB300 NVL72 proporciona 50 veces más tokens por vatio y un coste de tokens 35 veces menor que el de Hopper™, lo que maximiza los ingresos con el mismo presupuesto de energía y genera mayores márgenes de beneficio. Las optimizaciones continuas de software sacan el máximo rendimiento a escala de chip, bastidor y centro de datos, y mejora aún más el retorno de la inversión con el tiempo.

NVIDIA Vera Rubin abre la próxima frontera de la IA

La plataforma NVIDIA Vera Rubin consta de siete nuevos chips que ya están en producción total para escalar las fábricas de IA más grandes del mundo.

Leer el blog

Los principales proveedores de inferencia reducen los costes de la IA hasta 10 veces con modelos de código abierto en NVIDIA Blackwell

Baseten, Deep Infra, Fireworks AI y Together AI reducen el coste por token en todos los sectores con pilas de inferencia optimizadas que se ejecutan en la plataforma NVIDIA Blackwell.

Leer el blog

El rendimiento de inferencia reduce el coste de los tokens

Haga clic para ampliar la imagen

Los resultados de DeepSeek-R1 8K/1K muestran una ventaja de rendimiento y una oportunidad de ingresos 15 veces superior para NVIDIA Blackwell GB200 NVL72 en comparación con Hopper H200.

Ventajas

Un mayor rendimiento maximiza los ingresos

Gracias a un diseño conjunto de hardware y software extremo, el sistema NVIDIA GB300 NVL72 proporciona 50 veces más tokens por vatio que Hopper, lo que maximiza los ingresos de la fábrica de IA con el mismo presupuesto energético. Las optimizaciones continuas de software sacan el máximo rendimiento a escala de chip, bastidor y centro de datos, y mejora aún más el retorno de la inversión con el tiempo.

El coste más bajo de los tokens amplía los márgenes de beneficio

El sistema NVIDIA GB300 NVL72 proporciona un coste por token 35 veces inferior al de la plataforma NVIDIA Hopper, lo que proporciona mayores márgenes de beneficio para las fábricas de IA. Con cada generación, las mejoras del rendimiento superan con creces los costes de infraestructura, lo que crea una mejor economía para permitir experiencias de IA avanzadas a escala masiva.

La pila completa optimiza cada modelo y caso de uso

NVIDIA admite todos los modelos en IA generativa, aprendizaje automático tradicional, computación científica, biología e IA física. Desde aplicaciones en tiempo real sensibles a la latencia hasta el procesamiento por lotes de alto rendimiento, NVIDIA proporciona el mejor rendimiento para cada caso de uso. La plataforma ofrece la máxima flexibilidad y programabilidad para elegir la configuración óptima para la evolución de la carga de trabajo y los requisitos empresariales.

La integración nativa acelera la implementación

El software listo para la producción de NVIDIA, que incluye Dynamo y TensorRT™ LLM, y la integración nativa con los principales marcos, como PyTorch, vLLM, SGLang y llm-d, proporcionan la pila de inferencia de IA más robusta. A medida que las arquitecturas de modelos y las técnicas de inferencia evolucionan rápidamente, la pila de NVIDIA garantiza el camino más rápido desde la innovación hasta la producción.

Plataforma

Diseño conjunto de hardware y software extremo

Un hardware potente sin una orquestación inteligente desperdicia parte de su potencial; un software excepcional sin un hardware rápido se traduce en un rendimiento de inferencia lento. La plataforma de inferencia de NVIDIA ofrece una solución de pila completa optimizada de forma continua con computación, redes, almacenamiento y software diseñados conjuntamente para permitir el máximo rendimiento en diversas cargas de trabajo.

Explore algunas de las innovaciones clave de hardware y software de NVIDIA.

NVIDIA Vera Rubin NVL72

La plataforma NVIDIA Vera Rubin proporciona un rendimiento por vatio 10 veces mejor y un coste por token 10 veces menor que el de Blackwell. Gracias a un diseño conjunto extremo, la plataforma combina las GPU Rubin para el pre-rellenado de contexto masivo con LPX para una descodificación rápida, lo que elimina el compromiso entre velocidad y escala.

Explore siete nuevos chips, un superordenador de IA

NVIDIA Grace Blackwell Ultra NVL72

El GB300 NVL72 cuenta con 72 GPU B300 conectadas con 130 TB/s NVLink™ para que puedan comunicarse sin problemas entre sí y desbloquear modelos masivos de mezcla de expertos a escala.

Disfrute de un rendimiento superior de razonamiento de IA acerca de GB200 NVL72

NVIDIA Dynamo

NVIDIA Dynamo es un marco de servicio de inferencia distribuida de código abierto para implementar modelos en entornos de varios nodos a escala de fábrica de IA. Agiliza el servicio distribuido al desagregar la inferencia, optimizar el enrutamiento y ampliar la memoria mediante el almacenamiento en caché de datos a niveles de almacenamiento rentables.

Implementar sin problemas en varios nodos con Dynamo

TensorRT LLM

TensorRT LLM es una biblioteca de código abierto para la inferencia de LLM de alto rendimiento en tiempo real optimizada de forma continua en las GPU NVIDIA. Como tiene un tiempo de ejecución de Python modular, autoría nativa de PyTorch y una API de producción estable, está optimizada para maximizar el rendimiento, minimizar los costes y brindar experiencias de usuario muy ágiles.

Optimizar la inferencia con TensorRT LLM

Descodificar los puntos del análisis de rendimiento de Pareto

¿Alguna vez se ha preguntado cómo las complejas soluciones de compromiso de IA se transforman en resultados en el mundo real? Explore diferentes puntos de todas las curvas de rendimiento que se muestran a continuación para comprobar de primera mano cómo el diseño conjunto extremo de hardware y software convierte a NVIDIA Blackwell Ultra en la opción más eficiente, más rentable y con mejor rendimiento.

TPS / user

–

TPS / MW

–

Simulated Chat Experience

DeepSeek R1 ISL = 32K, OSL = 8K, GB300 NVL72 con desagregación FP4 Dynamo H100 con lotes en vuelo FP8. El rendimiento proyectado está sujeto a cambios.

¿Se pregunta cómo cada configuración se traduce en experiencias de usuario reales? Explore las curvas por su cuenta o con la orientación de TJ pulsando en «Explorar con TJ» y compruebe cómo se materializan en el chat simulado de la derecha.

Explore todo lo que puede hacer con el Configurador de IA de NVIDIA Dynamo

Historias de clientes

Cómo los líderes del sector impulsan la innovación con la inferencia de IA

Más casos de éxito

Amdocs

Accelerate Generative AI Performance and Lower Costs

Read how Amdocs built amAIz, a domain-specific generative AI platform for telcos, using NVIDIA DGX™ Cloud and NVIDIA NIM inference microservices to improve latency, boost accuracy, and reduce costs.

Read Case Study

Snapchat

Enhancing Apparel Shopping With AI

Learn how Snapchat enhanced the clothes shopping experience and emoji-aware optical character recognition using Triton Inference Server to scale, reduce costs, and accelerate time to production.

Read Case Study

Amazon

Accelerate Customer Satisfaction

Discover how Amazon improved customer satisfaction by accelerating their inference 5X faster with TensorRT.

Read Case Study

Recursos

Lo último en recursos de inferencia por IA

Blogs
Sesiones
Formación
Vídeos

Ver más sesiones

Da tus primeros pasos en la inferencia con NVIDIA LaunchPad

¿Ya tienes un proyecto de IA? Haz una solicitud para obtener experiencia práctica en las pruebas y la creación de prototipos de tus soluciones de IA.

Solicitar ahora

Explora las rutas de aprendizaje de la IA generativa y los LLM

Mejora tus habilidades técnicas en IA generativa y en modelos lingüísticos de gran tamaño con nuestras completas rutas de aprendizaje.

Explorar ahora

Empieza con la inferencia generativa de IA en NVIDIA LaunchPad

Acelera tu viaje hacia la IA generativa gracias al acceso inmediato y a corto plazo a los microservicios de inferencia NVIDIA NIM y a los modelos de IA, totalmente gratis.

Empezar

Ver más formación

Implementación de IA generativa en producción con NVIDIA NIM

Acceda al potencial de la IA generativa con NVIDIA NIM. Este vídeo muestra cómo los microservicios NVIDIA NIM pueden transformar su implementación de IA en un potente centro de producción.

Ver el vídeo (01:55)

Las 5 razones por las que Triton está simplificando la inferencia

El servidor de inferencia Triton simplifica la implementación de modelos de IA a escala en producción. El software de servicio de inferencia de código abierto permite a los equipos implementar modelos de IA entrenados desde cualquier marco, desde el almacenamiento local o la plataforma en la nube, en cualquier infraestructura basada en GPU o CPU.

Ver el vídeo (01:59)

UneeQ

NVIDIA presenta NIM

¿Alguna vez se ha preguntado de qué es capaz la tecnología NIM de NVIDIA? Adéntrese en el mundo de los robots y los humanos digitales para ver qué pueden hacer los NIM.

Ver el vídeo (13:42)

Ver más vídeos

Próximos pasos

¿Todo listo para empezar?

Explore todo lo necesario para empezar a desarrollar tu aplicación de IA, incluidas las últimas documentaciones, tutoriales, blogs técnicos y mucho más.

Empezar a desarrollar Empiece a crear

Encuentre el hardware idóneo para sus cargas de trabajo de inferencia

Las soluciones de NVIDIA Data Center se encuentran disponibles a través de una selección de colaboradores de NVIDIA Partner Network (NPN). Explore las opciones flexibles y asequibles para acceder a las últimas tecnologías del centro de datos de NVIDIA a través de nuestros partners.

Explorar NVIDIA Marketplace

Hágase con lo último en inferencia de IA de NVIDIA

Suscríbase para obtener las últimas noticias, actualizaciones y mucho más sobre inferencia de IA.

Manténgase al corriente

Plataforma de inferencia de NVIDIA

¿Cómo escalar la inferencia de IA de forma rentable?

NVIDIA Vera Rubin abre la próxima frontera de la IA

Los principales proveedores de inferencia reducen los costes de la IA hasta 10 veces con modelos de código abierto en NVIDIA Blackwell

El rendimiento de inferencia reduce el coste de los tokens

Un mayor rendimiento maximiza los ingresos

El coste más bajo de los tokens amplía los márgenes de beneficio

La pila completa optimiza cada modelo y caso de uso

La integración nativa acelera la implementación

Diseño conjunto de hardware y software extremo

NVIDIA Vera Rubin NVL72

NVIDIA Grace Blackwell Ultra NVL72

NVIDIA Dynamo

TensorRT LLM

Descodificar los puntos del análisis de rendimiento de Pareto

Cómo los líderes del sector impulsan la innovación con la inferencia de IA

Accelerate Generative AI Performance and Lower Costs

Enhancing Apparel Shopping With AI

Accelerate Customer Satisfaction

Lo último en recursos de inferencia por IA

Da tus primeros pasos en la inferencia con NVIDIA LaunchPad

Explora las rutas de aprendizaje de la IA generativa y los LLM

Empieza con la inferencia generativa de IA en NVIDIA LaunchPad

Implementación de IA generativa en producción con NVIDIA NIM

Las 5 razones por las que Triton está simplificando la inferencia

NVIDIA presenta NIM

¿Todo listo para empezar?

Encuentre el hardware idóneo para sus cargas de trabajo de inferencia

Hágase con lo último en inferencia de IA de NVIDIA

Reciba las últimas noticias de NVIDIA sobre inferencia de AI