Descripción General

¿Cuál es la Forma Inteligente de Escalar la Inferencia de IA?

Un prompt. Un conjunto de tokens para la respuesta. Esto se llama inferencia de IA. A medida que los modelos crecen en tamaño y complejidad, las organizaciones se ven enfrentadas a la necesidad de un enfoque de pila completa y herramientas integrales para tener éxito en esta nueva era de leyes de escalado en IA.

Dado que los modelos de razonamiento generan tokens de IA de manera exponencial, la demanda de computación está aumentando. Satisfacer esto requiere fábricas de IA (infraestructuras diseñadas específicamente para la inferencia a escala con NVIDIA Blackwell) diseñadas para ofrecer desempeño, eficiencia y ROI en todas las industrias.

La optimización de la inferencia de pila completa es la clave para garantizar que usted esté pensando de manera inteligente sobre el escalado de la IA a escala de fábricas de IA.

NVIDIA Blackwell Establece el Estándar para el ROI de Inferencia

NVIDIA Blackwell arrasó con los nuevos puntos de referencia de SemiAnalysis InferenceMAX™ v1, logrando el más alto desempeño de inferencia de IA y la mejor eficiencia general. NVIDIA Blackwell hace posibles los mayores ingresos en fábricas de IA: una inversión de 5 millones de dólares en GB200 NVL72 genera 75 millones de dólares en ingresos por tokens, lo que representa una multiplicación por 15 de la inversión.

Inferencia a Escala: La Frontera para la IA y el ROI

En este video, desglosamos el equilibrio crítico entre desempeño, potencia y rentabilidad en la inferencia de IA moderna. Descubra cómo una inferencia más inteligente y una infraestructura de pila completa impulsan la economía de las fábricas de IA del mañana.

NVIDIA Blackwell Maximiza el ROI en Inferencia de IA

NVIDIA Blackwell hace posibles los mayores ingresos para fábricas de IA, lo que incluye un ROI hasta 15 veces más alto. Este es el resultado de un diseño colaborativo extremo que incluye NVIDIA Blackwell, NVLink™ y NVLink Switch para scale-outs; NVFP4 para especificaciones de baja precisión; y NVIDIA Dynamo y TensorRT™-LLM para mayor velocidad y flexibilidad, así como un trabajo de desarrollo con los frameworks comunitarios SGLang, vLLM y más.

Los resultados de DeepSeek-R1 8K/1K muestran un beneficio de desempeño y una oportunidad de ingresos 15 veces mayor para NVIDIA Blackwell GB200 NVL72 en comparación con Hopper H200.

NVIDIA TensorRT-LLM alcanza un rendimiento máximo de 60,000 TPS/GPU, una interactividad máxima de 1,000 TPS/usuario y una mejora de 5 veces en el desempeño en dos meses con gpt-oss-120b.

Beneficios

Explore los Beneficios de la IA de NVIDIA para la Inferencia Acelerada

Estandarice la Implementación

Estandarice la implementación de modelos en aplicaciones, frameworks de IA, arquitecturas de modelos y plataformas.

Integre y Escale Con Facilidad

Integre fácilmente con herramientas y plataformas en instancias de cloud públicas, en data centers locales y en el edge.

Menor Costo

Disfrute de un alto caudal y nivel de utilización de la infraestructura de IA, reduciendo así el costo.

Gran Desempeño

Disfrute del mejor desempeño del sector con la plataforma que establece múltiples récords en MLPerf de forma constante, el punto de referencia líder del sector para la IA.

Software

Descubra Nuestro Software de Inferencia de IA

NVIDIA AI Enterprise consta de NVIDIA NIM™, Servidor de Inferencia NVIDIA Triton™, NVIDIA® TensorRT™ y otras herramientas para simplificar la creación, el intercambio y la implementación de aplicaciones de IA. Con soporte, estabilidad, capacidad de administración y seguridad de nivel empresarial, las empresas pueden acelerar el tiempo de generación de valor al tiempo que eliminan el tiempo de inactividad no planificado.

La Forma Más Rápida de Escalar y Servir la Inferencia de IA

NVIDIA Dynamo es un software de inferencia de código abierto para acelerar y escalar los modelos de razonamiento de IA en fábricas de IA al menor costo y con la mayor eficiencia.

Potenciar la Próxima Generación de Agentes de IA

NVIDIA NIM es un conjunto de microservicios fáciles de usar, hechos para la implementación segura y confiable de inferencia de modelos de IA de alto desempeño en nubes, data centers y workstations.

Un SDK para un Desempeño de Inferencia Líder en la Industria

TensorRT-LLM es una biblioteca de código abierto para inferencia de LLM de alto rendimiento y en tiempo real en las GPU de NVIDIA. Con un tiempo de ejecución de Python modular, autoría nativa de PyTorch y una API de producción estable, está optimizado para maximizar el rendimiento, minimizar los costos y ofrecer experiencias rápidas al usuario.

Inferencia Sin Servidor de NVIDIA DGX Cloud

Una solución de inferencia de IA de alto desempeño y sin servidor que acelera la innovación de la IA con escalado automático, uso de GPU rentable, flexibilidad en múltiples nubes y escalabilidad perfecta.

Hardware

Explore Nuestra Infraestructura de Inferencia de IA

Obtenga un desempeño de IA incomparable con el software de inferencia de IA de NVIDIA, optimizado para la infraestructura acelerada por NVIDIA.  Las tecnologías NVIDIA Blackwell Ultra, la GPU H200, NVIDIA RTX PRO™ 6000 Blackwell Server Edition y NVIDIA RTX™ ofrecen una velocidad y una eficiencia excepcionales para las cargas de trabajo de inferencia de IA en data centers, nubes y workstations.

NVIDIA GB300 NVL72

La demanda de inferencia de IA está creciendo, y NVIDIA Blackwell Ultra está diseñada para satisfacer ese momento. El NVIDIA GB300 NVL72, que ofrece 1.4 exaFLOPS en un solo rack, unifica 72 GPU NVIDIA Blackwell Ultra con NVIDIA NVLink™ y NVFP4 para impulsar modelos masivos con eficiencia extrema, lo que permite lograr una producción de fábricas de IA 50 veces mayor a la vez que reduce los costos de tokens y acelera el razonamiento en tiempo real a escala.

GPU NVIDIA H200

La GPU NVIDIA H200, parte de la plataforma NVIDIA Hopper, superalimenta las cargas de trabajo de IA generativa y computación de alto rendimiento (HPC) con capacidades de desempeño y memoria que cambian el juego. Como la primera GPU con HBM3e, la memoria de la H200, más grande y rápida, impulsa la aceleración de la IA generativa y de los grandes modelos de lenguaje (LLM), al tiempo que avanza la computación científica para las cargas de trabajo de HPC.

NVIDIA RTX PRO 6000 Blackwell Server Edition

La GPU RTX PRO 6000 Blackwell Server Edition ofrece un desempeño de inferencia superalimentado en una amplia gama de modelos de IA, logrando un desempeño hasta 5 veces mayor para aplicaciones de IA basadas en agentes y generativa a escala empresarial en comparación con la NVIDIA L40S de la generación anterior. Los servidores NVIDIA RTX PRO™, disponibles de socios de sistemas globales, llevan el desempeño y la eficiencia de la arquitectura Blackwell a todos los data center empresariales.

NVIDIA RTX PRO 6000 Blackwell Edición Workstation

RTX PRO 6000 Blackwell Workstation Edition es la primera GPU para desktop en ofrecer 96 GB de memoria de GPU. El poder de la arquitectura de GPU Blackwell, combinado con la gran memoria de GPU y la pila de software de IA de NVIDIA, permite a las workstations impulsadas por RTX PRO ofrecer una aceleración increíble para la IA generativa y la inferencia de LLM directamente en la desktop.

Explore la Historia Detrás de la IA a Escala

¿Alguna vez se ha preguntado cómo las compensaciones complejas de la IA se traducen en resultados en el mundo real? Explore diferentes puntos de las curvas de desempeño a continuación para ver de primera mano cómo las innovaciones en las configuraciones de hardware e implementación afectan la eficiencia de los data center y la experiencia del usuario.

Toy Jensen
TPS / usuario
TPS / MW
Experiencia de Chat Simulado

DeepSeek R1 ISL = 32K, OSL = 8K, GB300 NVL72 con desagregación FP4 Dynamo. H100 con procesamiento por lotes en vuelo FP8. El desempeño proyectado puede cambiar.

¿Se pregunta cómo cada configuración se traduce en experiencias de usuario reales? Explore las curvas en solitario o con la guía de TJ haciendo clic en “Explore con TJ” y observe cómo cobran vida en el chat simulado de la derecha.

 

Historias de Clientes

Cómo Impulsan la Innovación los Líderes del Sector con la Inferencia de IA

Amdocs

Acelera el Desempeño de la IA Generativa y Reduzca los Costos

Lea cómo Amdocs creó amAIz, una plataforma de IA generativa específica de un dominio para las empresas de telecomunicaciones, mediante el uso de microservicios de inferencia NVIDIA DGX™ Cloud y NVIDIA NIM para mejorar la latencia, aumentar la precisión y reducir los costos.

Snapchat

Mejora de la Compra de Ropa con IA

Descubra cómo Snapchat mejoró la experiencia de compra de ropa y el reconocimiento óptico de caracteres compatible con emojis mediante el Servidor de Inferencia Triton para escalar, reducir los costos y acelerar el tiempo de producción.

Amazon

Acelere la Satisfacción del Cliente

Descubra cómo Amazon mejoró la satisfacción del cliente al acelerar su inferencia 5 veces más rápido con TensorRT.

Recursos

Lo Último en Recursos de Inferencia de IA

Empiece con la Inferencia en NVIDIA LaunchPad

¿Dispone de un proyecto de IA actualmente? Solicite una prueba práctica y cree prototipos de sus soluciones de IA.

Descubra las Rutas de Aprendizaje de IA Generativa y LLM

Mejore sus habilidades técnicas en IA generativa y grandes modelos de lenguaje con nuestras rutas integrales de aprendizaje.

Empiece en la Inferencia de IA Generativa con NVIDIA LaunchPad

Acelere su viaje hacia la IA generativa con acceso inmediato y a corto plazo a los microservicios de inferencia NVIDIA NIM y a los modelos de IA, todo ello de forma gratuita.

Implementación de la IA Generativa en Producción con NVIDIA NIM

Descubre el potencial de la IA generativa con NVIDIA NIM. Este video explica cómo los microservicios NVIDIA NIM pueden transformar la implementación de la IA en una fuerza impulsora lista para la producción.

Las 5 Razones Principales por las que Triton Simplifica la Inferencia

El Servidor de Inferencia Triton simplifica la implementación de modelos de IA a escala en producción. Es un software de inferencia de código abierto que permite a los equipos implementar modelos de IA entrenados desde cualquier framework, desde el almacenamiento local o la plataforma de cloud en cualquier infraestructura basada en GPU o CPU.

UneeQ

NVIDIA Presenta los NIM

¿Alguna vez se preguntó de qué es capaz la tecnología NIM de NVIDIA? Profundice en el mundo de los asombrosos humanos y robots digitales para ver lo que los NIM hacen posible.

Próximos Pasos

¿Todo Listo para Comenzar?

Explore todo lo que necesita para comenzar a desarrollar su aplicación de IA, incluyendo la documentación más reciente, los tutoriales, blogs técnicos y mucho más.

Encuentre el Hardware Correcto para sus Cargas de Trabajo de Inferencia

Las soluciones para data centers de NVIDIA están disponibles a través de socios seleccionados de NVIDIA Partner Network (NPN). Explore opciones flexibles y asequibles para acceder a las últimas tecnologías de los data center de NVIDIA a través de nuestra red de socios.

Obtenga las Últimas Novedades sobre Inferencia de IA de NVIDIA

Regístrese para recibir las últimas noticias, actualizaciones y más sobre inferencia de IA de NVIDIA.