Inferencia de IA

NVIDIA Dynamo

Escalar y servir inferencia de IA rápidamente.

Descripción

El sistema operativo de IA

El servicio eficiente de los modelos de lenguaje de vanguardia actuales a menudo requiere recursos que superan la capacidad de una sola GPU, o incluso de un nodo completo, lo que hace que la implementación distribuida de varios nodos sea esencial para la inferencia de IA.

NVIDIA Dynamo es un marco de servicio de inferencia distribuida de código abierto diseñado para implementar modelos en entornos de varios nodos a escala de centro de datos. Es compatible con motores de inferencia de código abierto, incluidos SGLang, NVIDIA TensorRT™ LLM y vLLM, y simplifica las complejidades del servicio distribuido al desagregar las fases de inferencia en diferentes GPU, enrutar de forma inteligente las solicitudes a la GPU adecuada para evitar la computación redundante y ampliar la memoria de la GPU a través de la caché de datos a niveles de almacenamiento rentables.

Los microservicios NVIDIA NIM™ incluirán capacidades de NVIDIA Dynamo y proporcionarán una opción de implementación rápida y fácil. NVIDIA Dynamo también será compatible y estará disponible con NVIDIA AI Enterprise.

¿Qué es la inferencia distribuida?

La inferencia distribuida es el proceso de ejecución de inferencia de modelos de IA en varios dispositivos o nodos de computación para maximizar el rendimiento al paralelizar las computaciones.

Este enfoque permite un escalado eficiente para aplicaciones de IA a gran escala, como la IA generativa, al distribuir cargas de trabajo en GPU o infraestructura de la nube. La inferencia distribuida mejora el rendimiento general y la utilización de recursos al permitir a los usuarios optimizar la latencia y el rendimiento para los requisitos únicos de cada carga de trabajo.

Una mirada más cercana a NVIDIA Dynamo

Marco de inferencia distribuida de baja latencia para escalar modelos de IA de razonamiento.

Las pruebas de referencia independientes muestran que NVIDIA GB300 NVL72 combinado con NVIDIA Dynamo mejora el rendimiento de los modelos de mezcla de expertos (MoE) hasta 50 veces en comparación con los sistemas basados en NVIDIA Hopper™.

El GB300 NVL72 conecta 72 GPU a través de NVIDIA NVLink™ de alta velocidad, lo que permite una comunicación experta de baja latencia, lo que resulta esencial para los modelos de razonamiento de MoE. NVIDIA Dynamo mejora la eficiencia a través de la inferencia desagregada, dividiendo las fases de prellenado y descodificación en todos los nodos para una optimización independiente. Juntos, GB300 NVL72 y NVIDIA Dynamo forman una pila de alto rendimiento optimizada para la inferencia de MoE a gran escala.

Características

Explore las características de NVIDIA Dynamo

Servicio desagregado

Separa las fases de contexto y generación de modelos de lenguaje de gran tamaño (LLM) en distintas GPU, lo que permite la asignación y la optimización independientes de la GPU para aumentar las solicitudes atendidas por GPU.

Enrutador compatible con LLM

Enruta el tráfico de inferencia de forma eficiente y minimiza el costoso recálculo de solicitudes repetidas o solapadas para preservar los recursos de computación y garantizar una distribución de cargas equilibrada en grandes flotas de GPU.

Caché de KV al almacenamiento

Descarga instantáneamente la caché de KV de la memoria limitada de la GPU a un almacenamiento escalable y rentable, como la RAM de la CPU, las unidades SSD locales o el almacenamiento de red.

Kubernetes Serving optimizado por topología (Grove)

Permite un escalado eficiente y un orden de inicio declarativo de componentes de inferencia de IA interdependientes en configuraciones de un solo nodo y varios nodos con un recurso personalizado unificado de Kubernetes.

Planificador de GPU

Supervisa la capacidad de la GPU en entornos de inferencia distribuida y asigna dinámicamente trabajadores de GPU en todas las fases de contexto y generación para resolver cuellos de botella y optimizar el rendimiento.

Biblioteca de comunicación de baja latencia (NIXL)

Acelera el movimiento de datos en entornos de inferencia distribuida al tiempo que simplifica las complejidades de transferencia en diverso hardware, incluidas GPU, CPU, redes y almacenamiento.

AIConfigurator

Elimina las conjeturas de los clústeres de servicio desagregados al recomendar configuraciones óptimas de prefill y decode óptimas, junto con estrategias de paralelismo de modelo adaptadas al modelo, el presupuesto de la GPU y las SLO.

AIPerf

Evalúe el rendimiento de modelos de IA generativa en cualquier solución de inferencia con métricas detalladas a través de salidas de línea de comandos e informes de rendimiento detallados.

Acelere la inferencia distribuida

NVIDIA Dynamo es totalmente de código abierto, lo que le ofrece transparencia y flexibilidad completas. Implemente NVIDIA Dynamo, contribuya a su crecimiento e intégrelo a la perfección en su pila existente.

 ¡Échele un vistazo en GitHub y únase a la comunidad!

Ventajas

Las ventajas de NVIDIA Dynamo

Escale a la perfección desde una GPU a miles de GPU

Agilice y automatice la configuración de clústeres de GPU con herramientas prediseñadas y fáciles de implementar y permita el autoescalado dinámico con métricas específicas de LLM en tiempo real, evitando el sobreaprovisionamiento o el aprovisionamiento insuficiente de recursos de GPU.

Aumente la capacidad de servicio de inferencia al tiempo que reduce los costes

Aproveche lala inferencia de LLM avanzada que sirve optimizaciones, como el servido desagregado y el escalado automático sensible a la topología para aumentar el número de solicitudes de inferencia servidas sin poner en peligro la experiencia del usuario.

Prepare su infraestructura de IA para el futuro y evite costosas migraciones

El diseño abierto y modular le permite seleccionar fácilmente los componentes que sirven inferencia y que se adaptan a sus necesidades únicas, garantizándole la compatibilidad con su pila de IA existente y evitando costosos proyectos de migración.

Acelere el tiempo para implementar nuevos modelos de IA en producción

El soporte de NVIDIA Dynamo con todos los principales marcos, incluidos NVIDIA TensorRT-LLM, vLLM, SGLang, PyTorch y muchos más, garantiza la capacidad para implementar rápidamente nuevos modelos de IA generativa, independientemente de su backend.

Partners del ecosistema de Dynamo

Casos de uso

Implementación de IA con NVIDIA Dynamo

Descubra cómo puede impulsar la innovación con NVIDIA Dynamo.

Servir modelos de razonamiento

Los modelos de razonamiento generan más tokens para resolver problemas complejos, lo que aumenta los costes de inferencia. NVIDIA Dynamo optimiza estos modelos con características como el servicio desagregado. Este enfoque separa las fases computacionales de precargado y descodificación en GPU distintas, lo que permite a los equipos de inferencia de IA optimizar cada fase de forma independiente. El resultado es una mejor utilización de recursos, más consultas servidas por GPU y menores costes de inferencia. Cuando se combina con NVIDIA GB200 NVL72, NVIDIA Dynamo aumenta el rendimiento compuesto hasta 15 veces.

Escalado de IA de Kubernetes

A medida que los modelos de IA crecen en demasía para poder alojarse en un solo nodo, servirlos de forma eficiente se convierte en un desafío. La inferencia distribuida requiere la división de modelos en varios nodos, lo que añade complejidad en la orquestación, el escalado y la comunicación en entornos basados en Kubernetes. Garantizar que estos nodos funcionen como una unidad cohesiva, especialmente bajo cargas de trabajo dinámicas, exige una gestión cuidadosa. NVIDIA Dynamo simplifica esto al utilizar Grove, que se encarga de la programación, el escalado y el servicio sin problemas, para que pueda centrarse en la implementación de la IA, no en la gestión de la infraestructura.

Agentes de IA escalables

Los agentes de IA generan cantidades masivas de caché de KV al trabajar con varios modelos (LLM, sistemas de recuperación y herramientas especializadas) en tiempo real. Esta caché de KV a menudo excede la capacidad de la memoria de la GPU, lo que crea un cuello de botella para el escalado y el rendimiento.

Para superar las limitaciones de memoria de la GPU, el almacenamiento en caché de datos de KV en la memoria de host o el almacenamiento externo amplía la capacidad, lo que permite a los agentes de IA escalar sin restricciones. NVIDIA Dynamo simplifica esto con su KV Cache Manager e integraciones con herramientas de código abierto como LMCache, lo que garantiza una gestión eficiente de la caché y un rendimiento escalable de los agentes de IA.

Generación de código

La generación de código requiere a menudo un refinamiento iterativo para ajustar indicaciones, aclarar requisitos o depurar salidas basadas en las respuestas del modelo. Esta ida y vuelta requiere un recálculo del contexto con cada vuelta de usuario, lo que aumenta los costes de inferencia. NVIDIA Dynamo optimiza este proceso al permitir la reutilización del contexto.

El router compatible con LLM de NVIDIA Dynamo gestiona de forma inteligente la caché de KV en clústeres de GPU de varios nodos. Enruta las solicitudes en función de la superposición de caché y las dirige a las GPU con el mayor potencial de reutilización. Esto minimiza la computación redundante y garantiza un rendimiento equilibrado en implementaciones a gran escala.

Testimonios de clientes

Vea lo que dicen los líderes del sector sobre NVIDIA Dynamo

Cohere

"El escalado de modelos de IA avanzados requiere una sofisticada programación con varias GPU, una coordinación impecable y bibliotecas de comunicación de baja latencia que transfieran contextos de razonamiento a la perfección en toda la memoria y el almacenamiento. Esperamos que Dynamo nos ayude a ofrecer una experiencia de usuario de primer nivel a nuestros clientes empresariales".

Saurabh Baji, vicepresidente sénior de ingeniería de Cohere

Perplexity AI

"Al gestionar cientos de millones de solicitudes al mes, confiamos en las GPU y el software de inferencia de NVIDIA para ofrecer el rendimiento, la fiabilidad y la escala que exigen nuestra empresa y nuestros usuarios. Esperamos aprovechar Dynamo con sus capacidades mejoradas de servicio distribuido para impulsar aún más la eficiencia de la provisión de inferencia y satisfacer las exigencias de computación de los nuevos modelos de razonamiento de IA."

Denis Yarats, director de tecnología de Perplexity AI.

Together AI

"El escalado de modelos de razonamiento de forma rentable requiere nuevas técnicas de inferencia avanzadas, incluido el servicio desagregado y el enrutamiento consciente del contexto. Together AI ofrece un rendimiento líder en el sector utilizando nuestro motor de inferencia patentado. La apertura y la modularidad de NVIDIA Dynamo nos permitirán conectar a la perfección sus componentes a nuestro motor para servir más solicitudes al tiempo que optimizamos la utilización de recursos, lo que maximiza nuestra inversión en computación acelerada".

Ce Zhang, director de tecnología de Together AI.

Historias de clientes

Cómo los líderes del sector mejoran la implementación de modelos con la plataforma NVIDIA Dynamo

Usuarios

Principales usuarios de todos los sectores

NVIDIA Blackwell Ultra ofrece un rendimiento hasta 50 veces mejor y un coste 35 veces menor para la IA de agentes

Diseñada para acelerar la próxima generación de IA de agentes, NVIDIA Blackwell Ultra ofrece un rendimiento de inferencia sin precedentes con un coste drásticamente inferior. Algunos proveedores de la nube, como Microsoft, CoreWeave y Oracle Cloud Infrastructure, están implementando sistemas NVIDIA GB300 NVL72 a escala para casos de uso de baja latencia y contexto largo, como codificación agentiva y asistentes de codificación.

Esto es posible gracias al diseño conjunto profundo en NVIDIA Blackwell, NVLink™ y NVLink Switch para escalar, NVFP4 para una exactitud de baja precisión, y NVIDIA Dynamo y TensorRT™ LLM para obtener velocidad y flexibilidad, así como el desarrollo con los entornos de trabajo de la comunidad SGLang, vLLM y otros.

Recursos

Lo último en inferencia de NVIDIA

Reciba las últimas noticias

Más información sobre las últimas actualizaciones y anuncios de inferencia para el servidor de inferencia NVIDIA Dynamo.

Explorar blogs técnicos

Lea las instrucciones técnicas sobre cómo empezar con la inferencia.

Información en profundidad

Obtenga consejos y prácticas recomendadas para implementar, ejecutar y escalar modelos de IA para inferencia para IA generativa, LLM, sistemas de recomendación, visión por ordenador y mucho más.

Mejora del rendimiento de inferencia de LLM

Vea la grabación de nuestra sesión de NVIDIA Dynamo Office Hour para saber cómo optimizar la provisión de LLM con NVIDIA Dynamo. Descubra cómo cumplir los SLA y aumentar la interactividad y el rendimiento con enrutamiento compatible con LLM, servicio desagregado y escalado automático dinámico en modelos de código abierto y backends de inferencia.

Inferencia distribuida de baja latencia para escalar LLM

Descubra cómo implementar y escalar LLM de razonamiento con NVIDIA Dynamo. Explore técnicas de servicio avanzadas, como el precargado y la descodificación desagregados, y descubra cómo NVIDIA NIM permite la implementación rápida y lista para la producción de la inferencia de IA de próxima generación a escala.

Servicio de IA nativo de Kubernetes

Descubra Grove, una solución nativa de Kubernetes para orquestar cargas de trabajo de inferencia de IA complejas. Grove, que forma parte de NVIDIA Dynamo o se puede implementar de forma independiente, cierra la brecha entre los marcos de IA y Kubernetes a través de una potente API, lo que hace que la inferencia de IA escalable y eficiente en Kubernetes sea más fácil que nunca.

Guía de inicio rápido

¿Es nuevo en NVIDIA Dynamo y desea implementar su modelo rápidamente? Utilice esta guía de inicio rápido para empezar su viaje con NVIDIA Dynamo

Tutoriales

Empezar con NVIDIA Dynamo puede ocasionar muchas preguntas. Explore este repositorio para familiarizarse con las características de NVIDIA Dynamo y busque guías y ejemplos que pueden ayudarlo a facilitar la migración.

NVIDIA Brev

Aproveche la potencia de las GPU NVIDIA en cuestión de segundos con NVIDIA Brev: acceso instantáneo, configuración automática e implementación flexible en las principales plataformas en la nube. Empiece a crear y escalar sus proyectos de IA de inmediato.

Cómo optimizar el servicio de IA con NVIDIA Dynamo AIConfigurator

AIConfigurator elimina las conjeturas de la prestación de servicios desagregada. Recomienda las mejores configuraciones para cumplir sus objetivos de rendimiento en función de su modelo, el presupuesto de la GPU y los SLO. En este vídeo, aprenderá a empezar a usar AIConfigurator.

Escalado de inferencia con SGLang y NVIDIA Dynamo

Vea el encuentro grabado de SGLang × NVIDIA para explorar el rendimiento de inferencia a escala con las opiniones de los equipos de SGLang y NVIDIA Dynamo. Descubra los avances y estrategias de integración más recientes para optimizar la inferencia de IA en sus aplicaciones.

Técnicas avanzadas para una inferencia de IA eficiente

Este vídeo analiza las tres palancas clave de la inferencia de IA: calidad, coste y velocidad, y explica cómo el escalado en el momento de las pruebas afecta a cada una. Descubra cómo NVIDIA Dynamo le ofrece un control preciso a través de técnicas avanzadas como la desagregación, la descarga de KV y el enrutamiento de KV, lo que le permite optimizar las implementaciones de modelos de gran tamaño sin tener que hacer concesiones.

Próximos pasos

¿Listo para empezar?

¡Descárguelo en GitHub y únase a la comunidad!

Para desarrolladores

Explore todo lo necesario para comenzar a desarrollar con NVIDIA Dynamo, incluyendo la última documentación, tutoriales, blogs técnicos y mucho más.

Póngase en contacto

Hable con un especialista en productos de NVIDIA sobre cómo pasar de la fase piloto a la de producción con la seguridad, la estabilidad de las API y el soporte de NVIDIA AI Enterprise.

Leer la nota de prensa | Leer el blog técnico

Reciba las últimas noticias

Más información sobre las últimas actualizaciones y anuncios de inferencia para el servidor de inferencia Dynamo.

Explorar blogs técnicos

Lea las instrucciones técnicas sobre cómo empezar con la inferencia.

Información en profundidad

Obtenga consejos y prácticas recomendadas para implementar, ejecutar y escalar modelos de IA para inferencia para IA generativa, LLM, sistemas de recomendación, visión por ordenador y mucho más.

Implementación, optimización y evaluación de LLM

Descubra cómo servir LLM de forma eficiente con instrucciones paso a paso. Veremos cómo implementar fácilmente un LLM en varios backends y comparar su rendimiento, así como cómo ajustar con precisión las configuraciones de implementación para obtener un rendimiento óptimo.

Mueva los casos de uso de IA empresarial desde el desarrollo a la producción

Descubra qué es la inferencia de IA, cómo encaja en la estrategia de implementación de IA de su empresa, cuáles son los desafíos clave en la implementación de casos de uso de IA de nivel empresarial, por qué se necesita una solución de inferencia de IA de pila completa para abordar estos desafíos, cuáles son los componentes principales de una plataforma de pila completa y cómo implementar su primera solución de inferencia de IA.

Aproveche la potencia de las soluciones de inferencia de IA listas para la nube

Explore cómo la plataforma de inferencia de NVIDIA AI se integra a la perfección con los principales proveedores de servicios en la nube, simplificando la implementación y acelerando el lanzamiento de casos de uso de IA con tecnología de LLM.

Guía de inicio rápido

¿Es nuevo en Dynamo y desea implementar su modelo rápidamente? Utilice esta guía de inicio rápido para empezar su viaje con Dynamo.

Tutoriales

Empezar con Dynamo puede ocasionar muchas preguntas. Explore este repositorio para familiarizarse con las características de Dynamo y busque guías y ejemplos que pueden ayudarlo a facilitar la migración.

NVIDIA LaunchPad

En los laboratorios prácticos, experimente la IA rápida y escalable con NVIDIA Dynamo. Podrás desbloquear inmediatamente las ventajas de la infraestructura de computación acelerada de NVIDIA y escalar tus cargas de trabajo de IA. 

Las 5 razones principales por las que Dynamo simplifica la inferencia

El servidor de inferencia NVIDIA Dynamo simplifica la implementación de modelos de IA a escala en producción, permitiendo a los equipos implementar modelos de IA entrenados desde cualquier marco desde el almacenamiento local o la plataforma en la nube en cualquier infraestructura basada en GPU o CPU.

Implemente la canalización de Stable Diffusion de HuggingFace con Dynamo

Este vídeo muestra la implementación de la canalización de Stable Diffusion disponible a través de la biblioteca de difusores HuggingFace. Utilizamos el servidor de inferencia Dynamo para implementar y ejecutar la canalización.

Empezar con el servidor de inferencia NVIDIA Dynamo

El servidor de inferencia Dynamo es una solución de inferencia de código abierto que estandariza la implementación de modelos y permite una IA rápida y escalable en producción. Debido a sus muchas características, una pregunta natural que hay que hacer es, ¿por dónde empezar? Tendrás que verla para averiguarlo.