Inferência de IA

NVIDIA Dynamo

Escale e ofereça inferência de IA com rapidez.

Visão Geral

O Sistema Operacional da IA

Atender com eficiência os modelos de linguagem de fronteira atuais geralmente requer recursos que excedem a capacidade de uma única GPU, ou até mesmo de um nó inteiro, tornando a implantação distribuída e em vários nós essencial para a inferência de IA.

O NVIDIA Dynamo é um framework de código aberto e distribuído para execução de inferência, desenvolvido para implantar modelos em ambientes de vários nós em escala de data center. Ele é compatível com mecanismos de inferência de código aberto — incluindo SGLang, NVIDIA TensorRT™ LLM e vLLM — e simplifica as complexidades da execução distribuída ao desagregar fases de inferência em diferentes GPUs, rotear as solicitações para a GPU apropriada de forma inteligente para evitar cálculos redundantes e estender a memória da GPU por meio de cache de dados para camadas de armazenamento com boa relação custo-benefício.

Os microsserviços NVIDIA NIM™ incluirão as capacidades do NVIDIA Dynamo, fornecendo uma opção de implantação rápida e fácil. O NVIDIA Dynamo também será compatível e estará disponível com o NVIDIA AI Enterprise.

O Que É Inferência Distribuída?

Inferência distribuída é o processo de execução da inferência de modelos de IA em vários dispositivos ou nós de computação para maximizar o rendimento através da paralelização das computações.

Essa abordagem permite a escalabilidade eficiente para aplicações de IA em larga escala, como a IA generativa, distribuindo workloads em GPUs ou infraestrutura de nuvem. A inferência distribuída melhora o desempenho geral e a utilização de recursos, permitindo que os usuários otimizem a latência e o rendimento para os requisitos exclusivos de cada workload.

Um Olhar Mais Aprofundado no NVIDIA Dynamo

Framework de inferência distribuída de baixa latência para escalar modelos de IA de raciocínio.

Benchmarks independentes mostram que o NVIDIA GB300 NVL72, combinado com o NVIDIA Dynamo, melhora a taxa de processamento de modelos Mixture-of-Expert (MoE) em até 50 vezes em comparação com os sistemas baseados em NVIDIA Hopper™.

O GB300 NVL72 conecta 72 GPUs por meio do NVIDIA NVLink™ de alta velocidade, permitindo a comunicação de especialistas de baixa latência, essencial para modelos de raciocínio MoE. O NVIDIA Dynamo aprimora a eficiência por meio de inferência desagregada, dividindo as fases de pré-preenchimento e decodificação entre nós para otimização independente. Juntos, o GB300 NVL72 e o NVIDIA Dynamo formam um stack de alto desempenho, otimizado para inferência de MoE em larga escala.

Recursos

Explore os Recursos do NVIDIA Dynamo

Serviço Desagregado

Separa as fases de contexto e geração de grandes modelos de linguagem (LLMs) em GPUs distintas, permitindo a alocação e a otimização independentes de GPU para aumentar as solicitações atendidas por cada GPU.

Roteador com Reconhecimento de LLM

Rotas de inferência de tráfego feitas de forma eficiente, minimizando a recomputação cara de solicitações de repetição ou de sobreposição para preservar os recursos de computação e garantindo uma distribuição de carga equilibrada em grandes frotas de GPUs.

Cache KV para Armazenamento

Transfere instantaneamente o cache KV da memória limitada da GPU para armazenamento escalável e econômico, como a RAM da CPU, SSDs locais ou armazenamento de rede.

Execução em Kubernetes Otimizada para Topologia (Grove)

Permite a escalabilidade eficiente e a ordenação de inicialização declarativa de componentes de inferência de IA interdependentes em configurações de nó único e vários nós usando um recurso personalizado unificado do Kubernetes.

Planejador de GPU

Monitora a capacidade da GPU em ambientes de inferência distribuídos e aloca dinamicamente os trabalhadores de GPU em todas as fases de contexto e geração para resolver os gargalos e otimizar o desempenho.

Biblioteca de Comunicação de Baixa Latência (NIXL)

Acelera a movimentação de dados em configurações de inferência distribuídas, simplificando as complexidades de transferência em diversos hardwares, incluindo GPUs, CPUs, redes e armazenamento.

AIConfigurator

Elimina a necessidade de tentativa e erro em clusters de execução desagregada ao recomendar configurações ideais de pré-preenchimento e decodificação, além de estratégias de paralelismo de modelos adaptadas ao modelo, ao orçamento de GPU e aos SLOs.

AIPerf

Avalie o desempenho de modelos de IA generativa em qualquer solução de inferência, com métricas detalhadas via saída da linha de comando e relatórios de desempenho detalhados.

Acelere a Inferência Distribuída

O NVIDIA Dynamo é totalmente de código aberto, oferecendo a você transparência e flexibilidade completas. Implante o NVIDIA Dynamo, contribua para seu crescimento e integre-o perfeitamente ao seu stack existente.

 Confira no GitHub e junte-se à comunidade!

Benefícios

Os Benefícios do NVIDIA Dynamo

Escale Perfeitamente de Uma GPU para Milhares de GPUs

Simplifique e automatize a configuração de clusters de GPUs com ferramentas pré-construídas e fáceis de implantar e permita a escalabilidade automática dinâmica com métricas específicas de LLM em tempo real, evitando o provisionamento excessivo ou insuficiente de recursos de GPU.

Aumente a Capacidade de Serviço de Inferência e Reduza os Custos

Aproveite a inferência de LLM avançada, que serve otimizações, como a execução desagregada e a escala automática com reconhecimento de topologia, para aumentar o número de solicitações de inferência atendidas sem comprometer a experiência do usuário.

Prepare Sua Infraestrutura de IA para o Futuro e Evite Migrações Caras

O design aberto e modular permite que você escolha facilmente os componentes de serviço de inferência que atendem às suas necessidades exclusivas, garantindo compatibilidade com seu stack de IA existente e evitando projetos de migração caros.

Acelere o Tempo para Implantar Novos Modelos de IA em Produção

O suporte do NVIDIA Dynamo para todos os principais frameworks, incluindo NVIDIA TensorRT-LLM, vLLM, SGLang, PyTorch e muito mais, garante sua capacidade de implantar rapidamente novos modelos de IA generativa, independentemente de seu backend.

Parceiros do Ecossistema do Dynamo

Casos de Uso

Implantação de IA com o NVIDIA Dynamo

Descubra como você pode impulsionar a inovação com NVIDIA Dynamo.

Serviço de Modelos de Lógica

Os modelos de lógica geram mais tokens para resolver problemas complexos, aumentando os custos de inferência. O NVIDIA Dynamo otimiza esses modelos com recursos como serviço desagregado. Essa abordagem separa as fases computacionais de pré-preenchimento e decodificação em GPUs distintas, permitindo que as equipes de inferência de IA otimizem cada fase de forma independente. O resultado é uma melhor utilização de recursos, mais consultas atendidas por GPU e custos de inferência mais baixos. Quando combinado com o NVIDIA GB200 NVL72, o NVIDIA Dynamo aumenta o desempenho de processamento cumulativo em até 15 vezes.

Escalabilidade de IA do Kubernetes

À medida que os modelos de IA crescem muito para caber em um único nó, servi-los com eficiência torna-se um desafio. A inferência distribuída requer a divisão de modelos em vários nós, o que adiciona complexidade em orquestração, escalabilidade e comunicação em ambientes baseados em Kubernetes. A garantia de que esses nós funcionem como uma unidade coesa, especialmente em workloads dinâmicos, exige gerenciamento cuidadoso. O NVIDIA Dynamo simplifica isso usando o Grove, que cuida perfeitamente do agendamento, da escalabilidade e da execução, para que você possa se concentrar na implantação de IA — não no gerenciamento de infraestrutura.

Agentes de IA Escaláveis

Os agentes de IA geram grandes quantidades de cache KV ao trabalhar com vários modelos (LLMs, sistemas de recuperação e ferramentas especializadas) em tempo real. Esse cache KV geralmente excede a capacidade da memória da GPU, criando um gargalo para escalabilidade e desempenho.

Para superar as limitações de memória da GPU, o armazenamento em cache de dados KV na memória do host ou em armazenamento externo estende a capacidade, permitindo que os agentes de IA escalem sem restrições. O NVIDIA Dynamo simplifica isso com seu KV Cache Manager e integrações com ferramentas de código aberto, como o LMCache, garantindo gerenciamento de cache eficiente e desempenho de agentes de IA escalável.

Geração de Códigos

A geração de código geralmente requer refinamento iterativo para ajustar prompts, esclarecer requisitos ou depurar saídas com base nas respostas do modelo. Essa ida e volta requer recomputação de contexto a cada vez que o usuário volta, aumentando os custos de inferência. O NVIDIA Dynamo otimiza esse processo ao permitir a reutilização de contexto.

O roteador com reconhecimento de LLM do NVIDIA Dynamo gerencia de forma inteligente o cache KV em clusters de GPUs de vários nós. Ele roteia as solicitações com base na sobreposição de cache, direcionando-as para GPUs com o mais alto potencial de reutilização. Isso minimiza a computação redundante e garante desempenho equilibrado em implantações em larga escala.

Depoimentos de Clientes

Veja O Que os Líderes do Setor Têm a Dizer Sobre o NVIDIA Dynamo

Cohere

“A escalabilidade de modelos de IA avançados requer agendamento sofisticado de várias GPUs, coordenação perfeita e bibliotecas de comunicação de baixa latência que transferem contextos de lógica perfeitamente em memória e armazenamento. Esperamos que o Dynamo nos ajude a oferecer uma experiência de usuário de primeira linha a nossos clientes empresariais.”

Saurabh Baji, Vice-Presidente Sênior de Engenharia da Cohere

Perplexity AI

“Como lidamos com centenas de milhões de solicitações por mês, confiamos nas GPUs e no software de inferência da NVIDIA para oferecer o desempenho, a confiabilidade e a escalabilidade que nossa empresa e usuários exigem. Estamos ansiosos para aproveitar o Dynamo, com seus recursos de serviço distribuídos aprimorados, para impulsionar ainda mais eficiências de serviço de inferência e atender às demandas de computação de novos modelos de lógica de IA.”

Denis Yarats, CTO da Perplexity AI.

Together AI

“A escalabilidade de modelos de lógica com economia de custos requer novas técnicas de inferência avançadas, incluindo serviço desagregado e roteamento consciente do contexto. Juntas, a IA fornece desempenho líder do setor usando nosso mecanismo de inferência proprietário. A abertura e a modularidade do NVIDIA Dynamo nos permitirão conectar perfeitamente seus componentes em nosso mecanismo para atender a mais solicitações e otimizar a utilização de recursos, maximizando nosso investimento em computação acelerada.”

Ce Zhang, CTO da Together AI.

Histórias de Clientes

Como os Líderes do Setor Estão Aprimorando a Implantação de Modelos com a Plataforma NVIDIA Dynamo

Usuários

Principais Usuários em Todos os Setores

Recursos

As Últimas Novidades em Inferência da NVIDIA

Receba Novidades

Leia sobre as atualizações e anúncios mais recentes de inferência para os Servidores de Inferência NVIDIA Dynamo.

Leia os Blogs Técnicos

Leia orientações técnicas sobre como começar a usar a inferência.

Saiba Mais em Detalhe

Receba dicas e práticas recomendadas para a implantação, execução e escalabilidade de modelos de IA para inferência para IA generativa, LLMs, sistemas de recomendação, visão computacional e muito mais.

Impulsionando o Desempenho de Inferência de LLMs

Assista à nossa gravação do NVIDIA Dynamo Office Hour para saber como otimizar a execução de LLM com o NVIDIA Dynamo. Descubra como atender aos SLAs e aumentar a interatividade e a taxa de processamento usando o roteamento com reconhecimento de LLM, a execução desagregada e a escala automática dinâmica em modelos de código aberto e backends de inferência.

Inferência Distribuída de Baixa Latência para Escalar LLMs

Saiba como implantar e escalar LLMs de raciocínio usando o NVIDIA Dynamo. Explore técnicas avançadas de execução, como pré-preenchimento e decodificação desagregados, e veja como o NVIDIA NIM possibilita a implantação rápida e pronta para produção de inferência de IA de última geração em escala.

Execução de IA Nativa do Kubernetes

Descubra o Grove, uma solução nativa do Kubernetes para orquestrar cargas de trabalho complexas de inferência de IA. Como parte do NVIDIA Dynamo ou implantável de forma autônoma, o Grove preenche a lacuna entre os frameworks de IA e o Kubernetes por meio de uma API poderosa, tornando a inferência de IA escalável e eficiente no Kubernetes mais fácil do que nunca.

Guia de Início Rápido

Novo no NVIDIA Dynamo e quer implantar seu modelo rapidamente? Use este guia de início rápido para começar sua jornada com o NVIDIA Dynamo.

Tutoriais

Ao começar a usar o NVIDIA Dynamo, pode haver muitas perguntas. Explore este repositório para familiarizar-se com os recursos do NVIDIA Dynamo e encontre guias e exemplos que podem ajudar a facilitar a migração.

NVIDIA Brev

Desbloqueie a potência da GPU NVIDIA em segundos com o NVIDIA Brev: acesso instantâneo, configuração automática e implantação flexível nas principais plataformas de cloud. Comece a criar e escalar seus projetos de IA imediatamente.

Como Otimizar o Serviço de IA com o NVIDIA Dynamo AIConfigurator

O AIConfigurator elimina a necessidade de tentativa e erro da execução desagregada. Ele recomenda as melhores configurações para atender às suas metas de desempenho com base em seu modelo, orçamento para GPU e SLOs. Neste vídeo, você aprenderá a começar a usar o AIConfigurator.

Escalando a Inferência com o SGLang e o NVIDIA Dynamo

Assista à sessão gravada do SGLang × NVIDIA Meetup para explorar o desempenho de inferência em escala com insights das equipes do SGLang e do NVIDIA Dynamo. Saiba mais sobre os avanços e estratégias de integração mais recentes para otimizar a inferência de IA em suas aplicações.

Técnicas Avançadas para Inferência de IA Eficiente

Este vídeo explora as três principais alavancas de inferência de IA (qualidade, custo e velocidade) e como a escalabilidade no tempo de inferência impacta cada uma delas. Saiba como o NVIDIA Dynamo oferece controle preciso por meio de técnicas avançadas, como desagregação, descarga de KV e roteamento de KV, capacitando você a otimizar implantações de grandes modelos sem concessões.

Próximos Passos

Que Tal Começar Agora?

Faça o download no GitHub e junte-se à comunidade!

Para Desenvolvedores

Explore tudo aquilo de que você precisa para começar a desenvolver com o NVIDIA Dynamo, incluindo a documentação mais recente, tutoriais, blogs técnicos e muito mais.

Fale Conosco

Converse com um especialista em produtos da NVIDIA sobre a mudança da fase de testes para a produção com a segurança, a estabilidade da API e o suporte do NVIDIA AI Enterprise.

Leia o Comunicado à Imprensa | Leia o Blog de Tecnologia

Receba Novidades

Leia sobre as atualizações e anúncios mais recentes de inferência para o Servidor de Inferência Dynamo.

Leia os Blogs Técnicos

Leia orientações técnicas sobre como começar a usar a inferência.

Saiba Mais em Detalhe

Receba dicas e práticas recomendadas para a implantação, execução e escalabilidade de modelos de IA para inferência para IA generativa, LLMs, sistemas de recomendação, visão computacional e muito mais.

Implantação, Otimização e Benchmarking de LLMs

Saiba como oferecer LLMs com eficiência com instruções passo a passo. Cobriremos como implantar facilmente um LLM em vários backends e comparar seu desempenho, bem como o modo de ajustar as configurações de implantação para um desempenho ideal.

Mova os Casos de Uso de IA Empresarial do Desenvolvimento para a Produção

Saiba o que é a inferência de IA, como ela se encaixa na estratégia de implantação de IA da sua empresa, quais são os principais desafios na implantação de casos de uso de IA de nível empresarial, por que uma solução de inferência de IA de pacote completo é necessária para enfrentar esses desafios, os principais componentes de uma plataforma de pacote completo e como implantar sua primeira solução de inferência de IA.

Aproveite a Potência de Soluções de Inferência de IA Prontas para a Nuvem

Explore como a plataforma de inferência de IA da NVIDIA integra-se perfeitamente com os principais provedores de serviços de nuvem, simplificando a implantação e acelerando o lançamento de casos de uso de IA com tecnologia LLM.

Guia de Início Rápido

Novo no Dynamo e quer implantar seu modelo rapidamente? Use este guia de início rápido para começar sua jornada no Dynamo.

Tutoriais

Ao começar a usar o Dynamo, pode haver muitas perguntas. Explore este repositório para familiarizar-se com os recursos do Dynamo e encontre guias e exemplos que podem ajudar a facilitar a migração.

NVIDIA LaunchPad

Nos laboratórios práticos, experimente uma IA rápida e escalável usando o NVIDIA Dynamo. Você poderá desbloquear imediatamente as vantagens da infraestrutura de computação acelerada da NVIDIA e dimensionar suas cargas de trabalho de IA.

5 Principais Motivos Pelos Quais o Dynamo Está Simplificando a Inferência

O Servidor de Inferência NVIDIA Dynamo simplifica a implantação de modelos de IA em escala na produção, permitindo que as equipes implantem modelos de IA treinados de qualquer framework, de armazenamento local ou plataforma de nuvem em qualquer infraestrutura baseada em GPU ou CPU.

Implante o Pipeline de Stable Diffusion da HuggingFace com o Dynamo

Este vídeo mostra a implantação do pipeline de Stable Diffusion disponível por meio da biblioteca de difusores HuggingFace. Usamos o Servidor de Inferência Dynamo para implantar e executar o pipeline.

Comece Agora com o Servidor de Inferência NVIDIA Dynamo

O Servidor de Inferência Dynamo é uma solução de inferência de código aberto que padroniza a implantação de modelos e permite IA rápida e escalável em produção. Por causa de seus muitos recursos, uma pergunta natural a fazer é: por onde começo? Assista para descobrir.