NVIDIA Dynamo es un marco de inferencia modular de código abierto para servir modelos de IA generativa en entornos distribuidos. Permite un escalado perfecto de cargas de trabajo de inferencia en grandes flotas de GPU con programación dinámica de recursos, enrutamiento inteligente de solicitudes, gestión de memoria optimizada y transferencia de datos acelerada.
Al servir el modelo de razonamiento de código abierto DeepSeek-R1 671B en NVIDIA GB200 NVL72, NVIDIA Dynamo aumentó el número de solicitudes servidas hasta en 30 veces, lo que la convierte en la solución ideal para fábricas de IA que buscan ejecutarse al menor coste posible para maximizar la generación de ingresos de tokens.
NVIDIA Dynamo es compatible con todos los principales backends de inferencia de IA y cuenta con optimizaciones específicas de modelos lingüísticos de gran tamaño (LLM), como el servicio desagregado, la aceleración y el escalado de modelos de razonamiento de IA al coste más bajo y con la mayor eficiencia. Recibirá soporte como parte de NVIDIA AI Enterprise en una futura versión.