Inferência de IA

NVIDIA Dynamo

Escale e Ofereça IA Generativa Rapidamente.

Visão Geral

Inferência Distribuída de Baixa Latência
para IA Generativa

O NVIDIA Dynamo é um framework de inferência modular de código aberto para servir modelos de IA generativa em ambientes distribuídos. Ele permite a escalabilidade perfeita de workloads de inferência em grandes frotas de GPUs com agendamento dinâmico de recursos, roteamento de solicitações inteligente, gerenciamento de memória otimizado e transferência de dados acelerada.

Ao servir o modelo de lógica DeepSeek-R1 671B de código aberto na NVIDIA GB200 NVL72, o NVIDIA Dynamo aumentou o número de solicitações atendidas em até 30 vezes, tornando-o a solução ideal para fábricas de IA que buscam executar ao menor custo possível para maximizar a geração de receita de tokens.

O NVIDIA Dynamo suporta todos os principais backends de inferência de IA e possui otimizações específicas para grandes modelos de linguagem (LLM), como atendimento desagregado, aceleração e escalabilidade de modelos de lógica de IA pelo menor custo e com a mais alta eficiência. Receberá suporte como parte do NVIDIA AI Enterprise em uma versão futura.

O Que É Inferência Distribuída?

Inferência distribuída é o processo de execução da inferência de modelos de IA em vários dispositivos ou nós de computação para maximizar o rendimento através da paralelização das computações.

Essa abordagem permite a escalabilidade eficiente para aplicações de IA em larga escala, como a IA generativa, distribuindo workloads em GPUs ou infraestrutura de nuvem. A inferência distribuída melhora o desempenho geral e a utilização de recursos, permitindo que os usuários otimizem a latência e o rendimento para os requisitos exclusivos de cada workload.

Recursos

Explore os Recursos do NVIDIA Dynamo

Serviço Desagregado

Separa as fases de contexto (pré-preenchimento) e geração (decodificação) de LLM em GPUs distintas, permitindo o paralelismo de modelos personalizados e a alocação de GPUs independente para aumentar as solicitações atendidas por GPU.

Planejador de GPU

Monitora a capacidade da GPU em ambientes de inferência distribuídos e aloca dinamicamente os trabalhadores de GPU em todas as fases de contexto e geração para resolver os gargalos e otimizar o desempenho.

Roteador Inteligente

Rotas de inferência de tráfego feitas de forma eficiente, minimizando a recomputação cara de solicitações de repetição ou de sobreposição para preservar os recursos de computação e garantindo uma distribuição de carga equilibrada em grandes frotas de GPUs.

Biblioteca de Comunicação de Baixa Latência

Acelera a movimentação de dados em configurações de inferência distribuídas, simplificando as complexidades de transferência em diversos hardwares, incluindo GPUs, CPUs, redes e armazenamento.

Benefícios

Os Benefícios do NVIDIA Dynamo

Escale Perfeitamente de Uma GPU para Milhares de GPUs

Simplifique e automatize a configuração de clusters de GPUs com ferramentas pré-construídas e fáceis de implantar e permita a escalabilidade automática dinâmica com métricas específicas de LLM em tempo real, evitando o provisionamento excessivo ou insuficiente de recursos de GPU.

Aumente a Capacidade de Serviço de Inferência e Reduza os Custos

Aproveite a inferência de LLM avançada, que serve otimizações, como o serviço desagregado, para aumentar o número de solicitações de inferência atendidas sem comprometer a experiência do usuário.

Prepare Sua Infraestrutura de IA para o Futuro e Evite Migrações Caras

O design aberto e modular permite que você escolha facilmente os componentes de serviço de inferência que atendem às suas necessidades exclusivas, garantindo compatibilidade com seu stack de IA existente e evitando projetos de migração caros.

Acelere o Tempo para Implantar Novos Modelos de IA em Produção

O suporte do NVIDIA Dynamo para todos os principais frameworks, incluindo TensorRT-LLM, vLLM, SGLang, PyTorch e muito mais, garante sua capacidade de implantar rapidamente novos modelos de IA generativa, independentemente de seu backend.

Acelere a Inferência Distribuída

O NVIDIA Dynamo é totalmente de código aberto, oferecendo a você transparência e flexibilidade completas. Implante o NVIDIA Dynamo, contribua para seu crescimento e integre-o perfeitamente ao seu stack existente.

 Confira no GitHub e junte-se à comunidade!

Desenvolva

Para indivíduos que buscam obter acesso ao código de código aberto do Servidor de Inferência Triton para o desenvolvimento.

Desenvolva

Para indivíduos que buscam acesso gratuito a contêineres do Servidor de Inferência Triton para o desenvolvimento.

Experiência

Acesse a infraestrutura hospedada pela NVIDIA e os laboratórios práticos guiados que incluem instruções passo a passo e exemplos, disponíveis gratuitamente no NVIDIA LaunchPad.

Implantar

Obtenha uma licença gratuita para experimentar o NVIDIA AI Enterprise em produção por 90 dias usando sua infraestrutura existente.

Casos de Uso

Implantação de IA com o NVIDIA Dynamo

Descubra como você pode impulsionar a inovação com NVIDIA Dynamo.

Serviço de Modelos de Lógica

Os modelos de lógica geram mais tokens para resolver problemas complexos, aumentando os custos de inferência. O NVIDIA Dynamo otimiza esses modelos com recursos como serviço desagregado. Essa abordagem separa as fases computacionais de pré-preenchimento e decodificação em GPUs distintas, permitindo que as equipes de inferência de IA otimizem cada fase de forma independente. O resultado é uma melhor utilização de recursos, mais consultas atendidas por GPU e custos de inferência mais baixos.

Inferência Distribuída

À medida que os modelos de IA crescem muito para caber em um único nó, servi-los com eficiência torna-se um desafio. A inferência distribuída requer a divisão de modelos em vários nós, o que adiciona complexidade em orquestração, escalabilidade e comunicação. A garantia de que esses nós funcionem como uma unidade coesa, especialmente em workloads dinâmicos, exige gerenciamento cuidadoso. O NVIDIA Dynamo simplifica isso fornecendo recursos pré-construídos nos Kubernetes, lidando com perfeição com o agendamento, a escalabilidade e o serviço, para que você possa se concentrar na implantação de IA, e não no gerenciamento de infraestrutura.

Agentes de IA Escaláveis

Os agentes de IA contam com vários modelos (LLMs, sistemas de recuperação e ferramentas especializadas) trabalhando em sincronização em tempo real. A escalabilidade desses agentes é um desafio complexo, que exige agendamento de GPU inteligente, gerenciamento de cache KV eficiente e comunicação de latência ultrabaixa para manter a capacidade de resposta.
O NVIDIA Dynamo simplifica esse processo com um planejador de GPU inteligente incorporado, roteador inteligente e biblioteca de comunicação de baixa latência, tornando a escalabilidade de agentes de IA perfeita e eficiente.

 

Geração de Códigos

A geração de código geralmente requer refinamento iterativo para ajustar prompts, esclarecer requisitos ou depurar saídas com base nas respostas do modelo. Essa ida e volta requer recomputação de contexto a cada vez que o usuário volta, aumentando os custos de inferência. O NVIDIA Dynamo otimiza esse processo permitindo a reutilização de contexto e o descarregamento para memória econômica, minimizando a recomputação cara e reduzindo os custos gerais de inferência.

Depoimentos de Clientes

Veja O Que os Líderes do Setor Têm a Dizer Sobre o NVIDIA Dynamo


Cohere

“A escalabilidade de modelos de IA avançados requer agendamento sofisticado de várias GPUs, coordenação perfeita e bibliotecas de comunicação de baixa latência que transferem contextos de lógica perfeitamente em memória e armazenamento. Esperamos que o Dynamo nos ajude a oferecer uma experiência de usuário de primeira linha a nossos clientes empresariais.” Saurabh Baji, Vice-Presidente Sênior de Engenharia da Cohere


Perplexity AI

"Ao lidarmos com centenas de milhões de solicitações mensalmente, contamos com as GPUs e o software de inferência da NVIDIA para oferecer o desempenho, a confiabilidade e a escala que nossos negócios e usuários exigem: "Estamos ansiosos para aproveitar o Dynamo com seus recursos de serviço distribuídos aprimorados para impulsionar ainda mais eficiências de serviço de inferência e atender às demandas de computação de novos modelos de lógica de IA." Denis Yarats, CTO da Perplexity AI.


Together AI

“A escalabilidade de modelos de lógica com economia de custos requer novas técnicas de inferência avançadas, incluindo serviço desagregado e roteamento consciente do contexto. Juntas, a IA fornece desempenho líder do setor usando nosso mecanismo de inferência proprietário. A abertura e a modularidade do Dynamo nos permitirão conectar perfeitamente seus componentes em nosso mecanismo para atender a mais solicitações e otimizar a utilização de recursos, maximizando nosso investimento em computação acelerada. " Ce Zhang, CTO da Together AI.

Cohere

“A escalabilidade de modelos de IA avançados requer agendamento sofisticado de várias GPUs, coordenação perfeita e bibliotecas de comunicação de baixa latência que transferem contextos de lógica perfeitamente em memória e armazenamento. Esperamos que o NVIDIA Dynamo nos ajude a oferecer uma experiência de usuário de primeira linha a nossos clientes empresariais.” Saurabh Baji, Vice-Presidente Sênior de Engenharia da Cohere

Perplexity AI

"Ao lidarmos com centenas de milhões de solicitações mensalmente, contamos com as GPUs e o software de inferência da NVIDIA para oferecer o desempenho, a confiabilidade e a escala que nossos negócios e usuários exigem: "Estamos ansiosos para aproveitar o NVIDIA Dynamo com seus recursos de serviço distribuídos aprimorados para impulsionar ainda mais eficiências de serviço de inferência e atender às demandas de computação de novos modelos de lógica de IA." Denis Yarats, CTO da Perplexity AI.

Together AI

“A escalabilidade de modelos de lógica com economia de custos requer novas técnicas de inferência avançadas, incluindo serviço desagregado e roteamento consciente do contexto. Juntas, a IA fornece desempenho líder do setor usando nosso mecanismo de inferência proprietário. A abertura e a modularidade do NVIDIA Dynamo nos permitirão conectar perfeitamente seus componentes em nosso mecanismo para atender a mais solicitações e otimizar a utilização de recursos, maximizando nosso investimento em computação acelerada." Ce Zhang, CTO da Together AI.

Usuários

Principais Utilizadores em Todos os Setores

Recursos

As Últimas Novidades em Inferência da NVIDIA

Receba as Últimas Novidades

Leia sobre as atualizações e anúncios mais recentes de inferência para os Servidores de Inferência NVIDIA Dynamo.

Leia os Blogs Técnicos

Leia orientações técnicas sobre como começar a usar a inferência.

Aprofunde-se

Receba dicas e práticas recomendadas para a implantação, execução e escalabilidade de modelos de IA para inferência para IA generativa, LLMs, sistemas de recomendação, visão computacional e muito mais.

Implantação, Otimização e Benchmarking de LLMs

Saiba como oferecer LLMs com eficiência com instruções passo a passo. Cobriremos como implantar facilmente um LLM em vários backends e comparar seu desempenho, bem como o modo de ajustar as configurações de implantação para um desempenho ideal.

Mova os Casos de Uso de IA Empresarial do Desenvolvimento para a Produção

Saiba o que é a inferência de IA, como ela se encaixa na estratégia de implantação de IA da sua empresa, quais são os principais desafios na implantação de casos de uso de IA de nível empresarial, por que uma solução de inferência de IA de pacote completo é necessária para enfrentar esses desafios, os principais componentes de uma plataforma de pacote completo e como implantar sua primeira solução de inferência de IA.

Aproveite a Potência de Soluções de Inferência de IA Prontas para a Nuvem

Explore como a plataforma de inferência de IA da NVIDIA integra-se perfeitamente com os principais provedores de serviços de nuvem, simplificando a implantação e acelerando o lançamento de casos de uso de IA com tecnologia LLM.

Guia de Início Rápido

Novo no NVIDIA Dynamo e quer implantar seu modelo rapidamente? Use este guia de início rápido para começar sua jornada com o NVIDIA Dynamo.

Tutoriais

Ao começar a usar o NVIDIA Dynamo, pode haver muitas perguntas. Explore este repositório para familiarizar-se com os recursos do NVIDIA Dynamo e encontre guias e exemplos que podem ajudar a facilitar a migração.

NVIDIA LaunchPad

Nos laboratórios práticos, experimente uma IA rápida e escalável usando o NVIDIA Dynamo. Você poderá desbloquear imediatamente as vantagens da infraestrutura de computação acelerada da NVIDIA e dimensionar suas cargas de trabalho de IA.

5 Principais Motivos Pelos Quais o NVIDIA Dynamo Está Simplificando a Inferência

O Servidor de Inferência NVIDIA Dynamo simplifica a implantação de modelos de IA em escala na produção, permitindo que as equipes implantem modelos de IA treinados de qualquer framework, de armazenamento local ou plataforma de nuvem em qualquer infraestrutura baseada em GPU ou CPU.

Implante o Pipeline de Stable Diffusion da HuggingFace com o NVIDIA Dynamo

Este vídeo mostra a implantação do pipeline de Stable Diffusion disponível por meio da biblioteca de difusores HuggingFace. Usamos Servidores de Inferência NVIDIA Dynamo para implantar e executar o pipeline.

Comece Agora com o Servidor de Inferência do NVIDIA Dynamo

O NVIDIA Dynamo é uma solução de inferência de código aberto que padroniza a implantação de modelos e permite IA rápida e escalável em produção. Por causa de seus muitos recursos, uma pergunta natural a fazer é: por onde começo? Assista para descobrir.

Próximos Passos

Pronto Para Começar?

Faça o download no GitHub e junte-se à comunidade!

Para Desenvolvedores

Explore tudo aquilo de que você precisa para começar a desenvolver com o NVIDIA Dynamo, incluindo a documentação mais recente, tutoriais, blogs técnicos e muito mais.

Fale Conosco

Converse com um especialista em produtos da NVIDIA sobre a mudança da fase de testes para a produção com a segurança, a estabilidade da API e o suporte do NVIDIA AI Enterprise.

Leia o Comunicado à Imprensa | Leia o Blog de Tecnologia

Receba as Últimas Novidades

Leia sobre as atualizações e anúncios mais recentes de inferência para o Servidor de Inferência Dynamo.

Leia os Blogs Técnicos

Leia orientações técnicas sobre como começar a usar a inferência.

Aprofunde-se

Receba dicas e práticas recomendadas para a implantação, execução e escalabilidade de modelos de IA para inferência para IA generativa, LLMs, sistemas de recomendação, visão computacional e muito mais.

Implantação, Otimização e Benchmarking de LLMs

Saiba como oferecer LLMs com eficiência com instruções passo a passo. Cobriremos como implantar facilmente um LLM em vários backends e comparar seu desempenho, bem como o modo de ajustar as configurações de implantação para um desempenho ideal.

Mova os Casos de Uso de IA Empresarial do Desenvolvimento para a Produção

Saiba o que é a inferência de IA, como ela se encaixa na estratégia de implantação de IA da sua empresa, quais são os principais desafios na implantação de casos de uso de IA de nível empresarial, por que uma solução de inferência de IA de pacote completo é necessária para enfrentar esses desafios, os principais componentes de uma plataforma de pacote completo e como implantar sua primeira solução de inferência de IA.

Aproveite a Potência de Soluções de Inferência de IA Prontas para a Nuvem

Explore como a plataforma de inferência de IA da NVIDIA integra-se perfeitamente com os principais provedores de serviços de nuvem, simplificando a implantação e acelerando o lançamento de casos de uso de IA com tecnologia LLM.

Guia de Início Rápido

Novo no Dynamo e quer implantar seu modelo rapidamente? Use este guia de início rápido para começar sua jornada no Dynamo.

Tutoriais

Ao começar a usar o Dynamo, pode haver muitas perguntas. Explore este repositório para familiarizar-se com os recursos do Dynamo e encontre guias e exemplos que podem ajudar a facilitar a migração.

NVIDIA LaunchPad

Nos laboratórios práticos, experimente uma IA rápida e escalável usando o NVIDIA Dynamo. Você poderá desbloquear imediatamente as vantagens da infraestrutura de computação acelerada da NVIDIA e dimensionar suas cargas de trabalho de IA.

5 Principais Motivos Pelos Quais o Dynamo Está Simplificando a Inferência

O Servidor de Inferência NVIDIA Dynamo simplifica a implantação de modelos de IA em escala na produção, permitindo que as equipes implantem modelos de IA treinados de qualquer framework, de armazenamento local ou plataforma de nuvem em qualquer infraestrutura baseada em GPU ou CPU.

Implante o Pipeline de Stable Diffusion da HuggingFace com o Dynamo

Este vídeo mostra a implantação do pipeline de Stable Diffusion disponível por meio da biblioteca de difusores HuggingFace. Usamos o Servidor de Inferência Dynamo para implantar e executar o pipeline.

Comece Agora com o Servidor de Inferência do NVIDIA Dynamo

O Servidor de Inferência Dynamo é uma solução de inferência de código aberto que padroniza a implantação de modelos e permite IA rápida e escalável em produção. Por causa de seus muitos recursos, uma pergunta natural a fazer é: por onde começo? Assista para descobrir.