Soluciones de Inferencia de IA

Mayor Desempeño de IA, Ganancias Compuestas

Piense SMART. Piense en la Inferencia de NVIDIA.

Comenzar

Descargue el Libro Electrónico | Evaluaciones comparativas de desempeño | Para Desarrolladores

Descripción General
Beneficios
Software
Hardware
Casos de Uso
Historias de Clientes
Recursos
Próximos Pasos

Descripción General
Beneficios
Software
Hardware
Casos de Uso
Historias de Clientes
Recursos
Próximos Pasos

Empiece Ahora

Descripción General

¿Cuál es la Forma Inteligente de Escalar la Inferencia de IA?

Un prompt. Un conjunto de tokens para la respuesta. Esto se llama inferencia de IA. A medida que los modelos crecen en tamaño y complejidad, las organizaciones se ven enfrentadas a la necesidad de un enfoque de pila completa y herramientas integrales para tener éxito en esta nueva era de leyes de escalado en IA.

Dado que los modelos de razonamiento generan tokens de IA de manera exponencial, la demanda de computación está aumentando. Satisfacer esto requiere fábricas de IA (infraestructuras diseñadas específicamente para la inferencia a escala con NVIDIA Blackwell) diseñadas para ofrecer desempeño, eficiencia y ROI en todas las industrias.

La optimización de la inferencia de pila completa es la clave para garantizar que usted esté pensando de manera inteligente sobre el escalado de la IA a escala de fábricas de IA.

La Mezcla de Expertos Impulsa los Modelos de IA Frontera Más Inteligentes, se Ejecuta Diez Veces Más Rápido en NVIDIA Blackwell NVL72

Descubra por qué el diseño conjunto extremo de NVIDIA Blackwell NVL72 es el único sistema a escala de rack capaz de ofrecer un desempeño de inferencia 10 veces mejor en una amplia gama de modelos de mezcla de expertos (MoE), como Kimi K2 Thinking, DeepSeek-R1 y Mistral Large 3.

Lea el Anuncio

AWS, Google, Microsoft y OCI Impulsan el Desempeño de Inferencia de IA para Clientes de Nube con NVIDIA Dynamo

NVIDIA Dynamo trabaja con Kubernetes para agilizar la administración de la inferencia de IA de un solo nodo y nodos múltiples. NVIDIA Grove, una nueva API en NVIDIA Dynamo, orquesta la inferencia del sistema a partir de una sola especificación de alto nivel. Dynamo se integra en los servicios administrados de Kubernetes de todos los principales proveedores de nube, lo que permite a los clientes escalar a través de NVIDIA Blackwell.

Lea el Blog

NVIDIA Blackwell Maximiza el ROI en Inferencia de IA

NVIDIA Blackwell hace posibles los mayores ingresos para fábricas de IA, lo que incluye un ROI hasta 15 veces más alto. Este es el resultado de un diseño colaborativo extremo que incluye NVIDIA Blackwell, NVLink™ y NVLink Switch para scale-outs; NVFP4 para especificaciones de baja precisión; y NVIDIA Dynamo y TensorRT™-LLM para mayor velocidad y flexibilidad, así como un trabajo de desarrollo con los frameworks comunitarios SGLang, vLLM y más.

Los resultados de DeepSeek-R1 8K/1K muestran un beneficio de desempeño y una oportunidad de ingresos 15 veces mayor para NVIDIA Blackwell GB200 NVL72 en comparación con Hopper H200.

NVIDIA TensorRT-LLM alcanza un rendimiento máximo de 60,000 TPS/GPU, una interactividad máxima de 1,000 TPS/usuario y una mejora de 5 veces en el desempeño en dos meses con gpt-oss-120b.

Beneficios

Explore los Beneficios de la IA de NVIDIA para la Inferencia Acelerada

Estandarice la Implementación

Estandarice la implementación de modelos en aplicaciones, frameworks de IA, arquitecturas de modelos y plataformas.

Integre y Escale Con Facilidad

Integre fácilmente con herramientas y plataformas en instancias de cloud públicas, en data centers locales y en el edge.

Menor Costo

Disfrute de un alto caudal y nivel de utilización de la infraestructura de IA, reduciendo así el costo.

Gran Desempeño

Experimente un desempeño en inferencia líder en la industria con la plataforma que ha establecido consistentemente múltiples récords en MLPerf, el punto de referencia líder de la industria para IA.

Software

Descubra Nuestro Software de Inferencia de IA

La Inferencia de IA de NVIDIA incluye la plataforma NVIDIA Dynamo, TensorRT™-LLM, NVIDIA NIM™ y otras herramientas para simplificar el desarrollo, el intercambio y la implementación de aplicaciones de IA. La plataforma de inferencia de NVIDIA integra las mejores herramientas de código abierto, acelera el desempeño y permite una implementación escalable y confiable en toda la infraestructura, el software y los ecosistemas de nivel empresarial.

La Forma Más Rápida de Escalar y Servir la Inferencia de IA

NVIDIA Dynamo es un software de inferencia de código abierto para acelerar y escalar los modelos de razonamiento de IA en fábricas de IA al menor costo y con la mayor eficiencia.

Más Información Sobre NVIDIA Dynamo

Potenciar la Próxima Generación de Agentes de IA

NVIDIA NIM es un conjunto de microservicios fáciles de usar, hechos para la implementación segura y confiable de inferencia de modelos de IA de alto desempeño en nubes, data centers y workstations.

Más Información Sobre NVIDIA NIM

Un SDK para un Desempeño de Inferencia Líder en la Industria

TensorRT-LLM es una biblioteca de código abierto para inferencia de LLM de alto rendimiento y en tiempo real en las GPU de NVIDIA. Con un tiempo de ejecución de Python modular, autoría nativa de PyTorch y una API de producción estable, está optimizado para maximizar el rendimiento, minimizar los costos y ofrecer experiencias rápidas al usuario.

Más Información Sobre TensorRT-LLM

Inferencia Sin Servidor de NVIDIA DGX Cloud

Una solución de inferencia de IA de alto desempeño y sin servidor que acelera la innovación de la IA con escalado automático, uso de GPU rentable, flexibilidad en múltiples nubes y escalabilidad perfecta.

Más Información Sobre la Inferencia Sin Servidor de DGX Cloud

Hardware

Explore Nuestra Infraestructura de Inferencia de IA

Obtenga un desempeño de IA incomparable con el software de inferencia de IA de NVIDIA, optimizado para la infraestructura acelerada por NVIDIA. Las tecnologías NVIDIA Blackwell Ultra, la GPU H200, NVIDIA RTX PRO™ 6000 Blackwell Server Edition y NVIDIA RTX™ ofrecen una velocidad y una eficiencia excepcionales para las cargas de trabajo de inferencia de IA en data centers, nubes y workstations.

NVIDIA GB300 NVL72

La demanda de inferencia de IA está creciendo, y NVIDIA Blackwell Ultra está diseñada para satisfacer ese momento. El NVIDIA GB300 NVL72, que ofrece 1.4 exaFLOPS en un solo rack, unifica 72 GPU NVIDIA Blackwell Ultra con NVIDIA NVLink™ y NVFP4 para impulsar modelos masivos con eficiencia extrema, lo que permite lograr una producción de fábricas de IA 50 veces mayor a la vez que reduce los costos de tokens y acelera el razonamiento en tiempo real a escala.

Más Información Sobre GB300 NVL72

GPU NVIDIA H200

La GPU NVIDIA H200, parte de la plataforma NVIDIA Hopper, superalimenta las cargas de trabajo de IA generativa y computación de alto rendimiento (HPC) con capacidades de desempeño y memoria que cambian el juego. Como la primera GPU con HBM3e, la memoria de la H200, más grande y rápida, impulsa la aceleración de la IA generativa y de los grandes modelos de lenguaje (LLM), al tiempo que avanza la computación científica para las cargas de trabajo de HPC.

Más Información Sobre H200

NVIDIA RTX PRO 6000 Blackwell Server Edition

La GPU RTX PRO 6000 Blackwell Server Edition ofrece un desempeño de inferencia superalimentado en una amplia gama de modelos de IA, logrando un desempeño hasta 5 veces mayor para aplicaciones de IA basadas en agentes y generativa a escala empresarial en comparación con la NVIDIA L40S de la generación anterior. Los servidores NVIDIA RTX PRO™, disponibles de socios de sistemas globales, llevan el desempeño y la eficiencia de la arquitectura Blackwell a todos los data center empresariales.

Más Información RTX PRO 6000 Blackwell Server Edition

NVIDIA RTX PRO 6000 Blackwell Edición Workstation

RTX PRO 6000 Blackwell Workstation Edition es la primera GPU para desktop en ofrecer 96 GB de memoria de GPU. El poder de la arquitectura de GPU Blackwell, combinado con la gran memoria de GPU y la pila de software de IA de NVIDIA, permite a las workstations impulsadas por RTX PRO ofrecer una aceleración increíble para la IA generativa y la inferencia de LLM directamente en la desktop.

Más Información Sobre RTX PRO 6000 Blackwell Workstation Edition

Explore la Historia Detrás de la IA a Escala

¿Alguna vez se ha preguntado cómo las compensaciones complejas de la IA se traducen en resultados en el mundo real? Explore diferentes puntos de las curvas de desempeño a continuación para ver de primera mano cómo las innovaciones en las configuraciones de hardware e implementación afectan la eficiencia de los data center y la experiencia del usuario.

TPS / usuario

–

TPS / MW

–

Experiencia de Chat Simulado

DeepSeek R1 ISL = 32K, OSL = 8K, GB300 NVL72 con desagregación FP4 Dynamo. H100 con procesamiento por lotes en vuelo FP8. El desempeño proyectado puede cambiar.

¿Se pregunta cómo cada configuración se traduce en experiencias de usuario reales? Explore las curvas en solitario o con la guía de TJ haciendo clic en “Explore con TJ” y observe cómo cobran vida en el chat simulado de la derecha.

Explore Más con el Configurador de IA de NVIDIA Dynamo

Historias de Clientes

Cómo Impulsan la Innovación los Líderes del Sector con la Inferencia de IA

Más Historias de Clientes

Amdocs

Acelera el Desempeño de la IA Generativa y Reduzca los Costos

Lea cómo Amdocs creó amAIz, una plataforma de IA generativa específica de un dominio para las empresas de telecomunicaciones, mediante el uso de microservicios de inferencia NVIDIA DGX™ Cloud y NVIDIA NIM para mejorar la latencia, aumentar la precisión y reducir los costos.

Lea el Estudio de Caso

Snapchat

Mejora de la Compra de Ropa con IA

Descubra cómo Snapchat mejoró la experiencia de compra de ropa y el reconocimiento óptico de caracteres compatible con emojis mediante el Servidor de Inferencia Triton para escalar, reducir los costos y acelerar el tiempo de producción.

Lea el Estudio de Caso

Amazon

Acelere la Satisfacción del Cliente

Descubra cómo Amazon mejoró la satisfacción del cliente al acelerar su inferencia 5 veces más rápido con TensorRT.

Lea el Estudio de Caso

Recursos

Lo Último en Recursos de Inferencia de IA

Blogs
Sesiones
Entrenamiento
Videos

Vea Más Blogs

Vea Más Sesiones

Empiece con la Inferencia en NVIDIA LaunchPad

¿Dispone de un proyecto de IA actualmente? Solicite una prueba práctica y cree prototipos de sus soluciones de IA.

Regístrase Ahora

Descubra las Rutas de Aprendizaje de IA Generativa y LLM

Mejore sus habilidades técnicas en IA generativa y grandes modelos de lenguaje con nuestras rutas integrales de aprendizaje.

Explora Ahora

Empiece en la Inferencia de IA Generativa con NVIDIA LaunchPad

Acelere su viaje hacia la IA generativa con acceso inmediato y a corto plazo a los microservicios de inferencia NVIDIA NIM y a los modelos de IA, todo ello de forma gratuita.

Empiece Ahora

Vea Más en Entrenamiento

Implementación de la IA Generativa en Producción con NVIDIA NIM

Descubre el potencial de la IA generativa con NVIDIA NIM. Este video explica cómo los microservicios NVIDIA NIM pueden transformar la implementación de la IA en una fuerza impulsora lista para la producción.

Vea el Video

Las 5 Razones Principales por las que Triton Simplifica la Inferencia

El Servidor de Inferencia Triton simplifica la implementación de modelos de IA a escala en producción. Es un software de inferencia de código abierto que permite a los equipos implementar modelos de IA entrenados desde cualquier framework, desde el almacenamiento local o la plataforma de cloud en cualquier infraestructura basada en GPU o CPU.

Vea el Video

UneeQ

NVIDIA Presenta los NIM

¿Alguna vez se preguntó de qué es capaz la tecnología NIM de NVIDIA? Profundice en el mundo de los asombrosos humanos y robots digitales para ver lo que los NIM hacen posible.

Vea el Video

Vea Más Videos

Próximos Pasos

¿Todo Listo para Comenzar?

Explore todo lo que necesita para comenzar a desarrollar su aplicación de IA, incluyendo la documentación más reciente, los tutoriales, blogs técnicos y mucho más.

Comience a Desarrollar Empezar a Desarrollar

Encuentre el Hardware Correcto para sus Cargas de Trabajo de Inferencia

Las soluciones para data centers de NVIDIA están disponibles a través de socios seleccionados de NVIDIA Partner Network (NPN). Explore opciones flexibles y asequibles para acceder a las últimas tecnologías de los data center de NVIDIA a través de nuestra red de socios.

Explore el NVIDIA Marketplace

Obtenga las Últimas Novedades sobre Inferencia de IA de NVIDIA

Regístrese para recibir las últimas noticias, actualizaciones y más sobre inferencia de IA de NVIDIA.

Manténgase Informado