NVIDIA Dynamo es un framework de inferencia modular de código abierto para servir a modelos de IA generativa en entornos distribuidos. Permite el escalado sin problemas de las cargas de trabajo de inferencia en grandes flotas de GPU con programación dinámica de recursos, enrutamiento inteligente de solicitudes, administración de memoria optimizada y transferencia de datos acelerada.
Al servir al modelo de razonamiento de código abierto DeepSeek-R1 671B en NVIDIA GB200 NVL72, NVIDIA Dynamo aumentó el número de solicitudes atendidas hasta en 30 veces, lo que la convierte en la solución ideal para las fábricas de IA que buscan ejecutarse con el menor costo posible para maximizar la generación de ingresos por tokens.
NVIDIA Dynamo es compatible con todos los principales backends de inferencia de IA y cuenta con optimizaciones específicas de los grandes modelos de lenguaje (LLM), como el servicio desagregado, la aceleración y el escalado de modelos de razonamiento de IA al menor costo y con la más alta eficiencia. Será compatible con esta función como parte de NVIDIA AI Enterprise en una versión futura.