O NVIDIA Dynamo é um framework de inferência modular de código aberto para servir modelos de IA generativa em ambientes distribuídos. Ele permite a escalabilidade perfeita de workloads de inferência em grandes frotas de GPUs com agendamento dinâmico de recursos, roteamento de solicitações inteligente, gerenciamento de memória otimizado e transferência de dados acelerada.
Ao servir o modelo de lógica DeepSeek-R1 671B de código aberto na NVIDIA GB200 NVL72, o NVIDIA Dynamo aumentou o número de solicitações atendidas em até 30 vezes, tornando-o a solução ideal para fábricas de IA que buscam executar ao menor custo possível para maximizar a geração de receita de tokens.
O NVIDIA Dynamo suporta todos os principais backends de inferência de IA e possui otimizações específicas para grandes modelos de linguagem (LLM), como atendimento desagregado, aceleração e escalabilidade de modelos de lógica de IA pelo menor custo e com a mais alta eficiência. Receberá suporte como parte do NVIDIA AI Enterprise em uma versão futura.