Inferencia de IA
Escale y Sirva a la IA Generativa Rápidamente.
NVIDIA Dynamo es un framework de inferencia modular de código abierto para servir a modelos de IA generativa en entornos distribuidos. Permite el escalado sin problemas de las cargas de trabajo de inferencia en grandes flotas de GPU con programación dinámica de recursos, enrutamiento inteligente de solicitudes, administración de memoria optimizada y transferencia de datos acelerada.
Al servir al modelo de razonamiento de código abierto DeepSeek-R1 671B en NVIDIA GB200 NVL72, NVIDIA Dynamo aumentó el número de solicitudes atendidas hasta en 30 veces, lo que la convierte en la solución ideal para las fábricas de IA que buscan ejecutarse con el menor costo posible para maximizar la generación de ingresos por tokens.
NVIDIA Dynamo es compatible con todos los principales backends de inferencia de IA y cuenta con optimizaciones específicas de los grandes modelos de lenguaje (LLM), como el servicio desagregado, la aceleración y el escalado de modelos de razonamiento de IA al menor costo y con la más alta eficiencia. Será compatible con esta función como parte de NVIDIA AI Enterprise en una versión futura.
Separa las fases de contexto (prerellenado) y de generación (decodificación) de LLM en distintas GPU, lo que habilita el paralelismo de modelos personalizado y la asignación de GPU independiente para aumentar las solicitudes atendidas por GPU.
Supervisa la capacidad de la GPU en entornos de inferencia distribuidos y asigna dinámicamente trabajadores de GPU en todas las fases de contexto y generación para resolver cuellos de botella y optimizar el desempeño.
Enruta el tráfico de inferencia de manera eficiente, lo que minimiza el costoso recálculo de solicitudes repetidas o superpuestas para preservar los recursos de computación, a la vez que garantiza una distribución de carga equilibrada en grandes flotas de GPU.
Acelera el movimiento de datos en la configuración de inferencia distribuida, a la vez que simplifica las complejidades de transferencia en diversos tipos de hardware, como las GPU, las CPU, las redes y el almacenamiento.
Optimice y automatice la configuración de clústeres de GPU con herramientas preconstruidas y fáciles de implementar y habilite el escalado automático dinámico con métricas específicas de LLM en tiempo real, lo que evita el aprovisionamiento excesivo o insuficiente de recursos de GPU.
Aproveche las optimizaciones avanzadas de servicio de inferencia de LLM, como el servicio desagregado, para aumentar el número de solicitudes de inferencia atendidas sin comprometer la experiencia del usuario.
El diseño abierto y modular le permite elegir fácilmente los componentes de servicio de inferencia que se adaptan a sus necesidades únicas, lo que garantiza la compatibilidad con su pila de IA existente y evita costosos proyectos de migración.
La compatibilidad de NVIDIA Dynamo con todos los principales frameworks, como TensorRT-LLM, vLLM, SGLang, PyTorch y más, garantiza su capacidad de implementar rápidamente nuevos modelos de IA generativa, independientemente de su backend.
NVIDIA Dynamo es totalmente de código abierto, lo que le brinda total transparencia y flexibilidad. Implemente NVIDIA Dynamo, contribuya a su crecimiento e intégrelo sin problemas en su pila existente.
¡Descúbralo en GitHub y únase a la comunidad!
Descubra cómo puede impulsar la innovación con NVIDIA Dynamo.
Los modelos de razonamiento generan más tokens para resolver problemas complejos, lo que aumenta los costos de inferencia. NVIDIA Dynamo optimiza estos modelos con funciones como el servicio desagregado. Este enfoque separa las fases de prerellenado y decodificación en distintas GPU, lo que les permite a los equipos de inferencia de IA optimizar cada fase de forma independiente. El resultado es una mejor utilización de recursos, más consultas atendidas por GPU y menores costos de inferencia.
A medida que los modelos de IA se vuelven demasiado grandes para caber en un solo nodo, brindarles servicio de manera eficiente se convierte en un desafío. La inferencia distribuida requiere dividir modelos en múltiples nodos, lo que agrega complejidad en la orquestación, el escalado y la comunicación. Garantizar que estos nodos funcionen como una unidad cohesiva, especialmente en cargas de trabajo dinámicas, exige una administración cuidadosa. NVIDIA Dynamo simplifica esto al proporcionar capacidades preconstruidas en Kubernetes, que manejan sin problemas la programación, el escalado y el servicio para que pueda centrarse en la implementación de IA, no en la administración de infraestructura.
Los agentes de IA dependen de múltiples modelos (LLM, sistemas de recuperación y herramientas especializadas) que funcionan sincronizados en tiempo real. El escalado de estos agentes es un desafío complejo que requiere programación inteligente de GPU, administración eficiente de caché de KV y comunicación de latencia ultra baja para mantener la capacidad de respuesta.
NVIDIA Dynamo agiliza este proceso con un planificador de GPU inteligente, un enrutador inteligente y una biblioteca de comunicaciones de baja latencia integrados, lo que hace que el escalado de agentes de IA se realice sin problemas y sea eficiente.
La generación de código a menudo requiere un refinamiento iterativo para ajustar indicaciones, aclarar requisitos o depurar salidas en función de las respuestas del modelo. Este proceso de ida y vuelta requiere recálculo de contexto con cada turno de usuario, lo que aumenta los costos de inferencia. NVIDIA Dynamo optimiza este proceso al habilitar la reutilización y la descarga de contexto a memoria rentable, lo que minimiza el costoso recálculo y reduce los costos generales de inferencia.
¡Descargue en GitHub y únase a la comunidad!
Explore todo lo que necesita para comenzar a desarrollar con NVIDIA Dynamo, incluida la documentación, los tutoriales, los blogs técnicos más recientes, etc.
Hable con un especialista en productos NVIDIA sobre el paso de la fase de pruebas a la de producción con la seguridad, la estabilidad de las API y la asistencia de NVIDIA AI Enterprise.