Inferência de IA

Plataforma NVIDIA Dynamo

Escale e Ofereça IA Generativa Rapidamente.

Visão Geral

O Sistema Operacional da IA

A Plataforma NVIDIA Dynamo é uma plataforma de inferência de alto desempenho e baixa latência projetada para atender a todos os modelos de IA, em qualquer framework, arquitetura ou escala de implantação. Não importa se você está executando reconhecimento de imagens em uma única GPU de nível básico ou implantando grandes modelos de raciocínio de linguagem com bilhões de parâmetros em centenas de milhares de GPUs de data centers, a Plataforma NVIDIA Dynamo oferece inferência de IA escalável e eficiente.

O Que É Inferência Distribuída?

Inferência distribuída é o processo de execução da inferência de modelos de IA em vários dispositivos ou nós de computação para maximizar o rendimento através da paralelização das computações.

Essa abordagem permite uma escalabilidade eficiente para aplicações de IA em larga escala, como a IA generativa, distribuindo cargas de trabalho em GPUs ou infraestrutura de nuvem. A inferência distribuída melhora o desempenho geral e a utilização de recursos, permitindo que os usuários otimizem a latência e a taxa de transferência para os requisitos exclusivos de cada carga de trabalho.

Um Olhar Mais Atento da Plataforma

A Plataforma NVIDIA Dynamo inclui dois frameworks de serviços de inferência de código aberto.

O NVIDIA Dynamo atende a modelos de IA generativa em ambientes distribuídos de larga escala. Ele apresenta otimizações específicas para grandes modelos de linguagem (LLM), como serviço desagregado e roteamento otimizado para cache de chave-valor (cache KV), para permitir que fábricas de IA maximizem a geração de receita de tokens e sejam executadas ao menor custo possível. Os microsserviços NVIDIA NIM™ incluirão as capacidades do Dynamo, fornecendo uma opção de implantação rápida e fácil. O Dynamo também será compatível e estará disponível com o NVIDIA AI Enterprise.

O NVIDIA Dynamo-Triton, anteriormente conhecido como Servidor de Inferência NVIDIA Triton™, padroniza a implantação e execução de modelos de IA em todas as cargas de trabalho. É compatível com todos os backends de inferência de IA e pode ser executado em GPUs ou CPUs, permitindo que empresas e ISVs integrem de forma rápida e econômica a IA em seus produtos e serviços. O Dynamo-Triton está disponível hoje nos microsserviços NVIDIA NIM e com o NVIDIA AI Enterprise para suporte, segurança e estabilidade de nível empresarial.

Por Solução

Encontre a Melhor Solução para Você

Servidor de Modelos de IA Padronizados

NVIDIA Dynamo-Triton

Implante a inferência de IA em modelos de machine learning ou deep learning treinados a partir de qualquer framework em qualquer processador: GPU, CPU ou outro.

Serviço de IA Generativa Distribuída

NVIDIA Dynamo

Implante modelos de IA generativa em ambientes distribuídos em larga escala e com múltiplos nós pelo menor custo e a maior eficiência.

Implantação de Produção Rápida e Fácil

NVIDIA NIM

Os microsserviços NIM, também disponíveis com o NVIDIA AI Enterprise, incluirão continuamente os recursos da Plataforma Dynamo ao longo do tempo, permitindo uma implantação rápida e fácil.

Recursos

Explore os Recursos do NVIDIA Dynamo

Serviço Desagregado

Separa as fases de contexto (pré-preenchimento) e geração (decodificação) de LLM em GPUs distintas, permitindo o paralelismo de modelos personalizados e a alocação de GPUs independente para aumentar as solicitações atendidas por GPU.

Planejador de GPU

Monitora a capacidade da GPU em ambientes de inferência distribuídos e aloca dinamicamente os trabalhadores de GPU em todas as fases de contexto e geração para resolver os gargalos e otimizar o desempenho.

Roteador Inteligente

Rotas de inferência de tráfego feitas de forma eficiente, minimizando a recomputação cara de solicitações de repetição ou de sobreposição para preservar os recursos de computação e garantindo uma distribuição de carga equilibrada em grandes frotas de GPUs.

Biblioteca de Comunicação de Baixa Latência NIXL

Acelera a movimentação de dados em configurações de inferência distribuídas, simplificando as complexidades de transferência em diversos hardwares, incluindo GPUs, CPUs, redes e armazenamento.

Benefícios

Os Benefícios do NVIDIA Dynamo

Escale Perfeitamente de Uma GPU para Milhares de GPUs

Simplifique e automatize a configuração de clusters de GPUs com ferramentas pré-construídas e fáceis de implantar e permita a escalabilidade automática dinâmica com métricas específicas de LLM em tempo real, evitando o provisionamento excessivo ou insuficiente de recursos de GPU.

Aumente a Capacidade de Serviço de Inferência e Reduza os Custos

Aproveite a inferência de LLM avançada, que serve otimizações, como o serviço desagregado, para aumentar o número de solicitações de inferência atendidas sem comprometer a experiência do usuário.

Prepare Sua Infraestrutura de IA para o Futuro e Evite Migrações Caras

O design aberto e modular permite que você escolha facilmente os componentes que atendem às suas necessidades exclusivas, garantindo a compatibilidade com o stack de IA existente e evitando projetos de migração dispendiosos.

Acelere o Tempo para Implantar Novos Modelos de IA na Produção

O suporte do NVIDIA Dynamo para todos os principais frameworks, incluindo TensorRT-LLM, vLLM, SGLang, PyTorch e muito mais, garante sua capacidade de implantar rapidamente novos modelos de IA generativa, independentemente de seu backend.

Acelere a Inferência Distribuída

O NVIDIA Dynamo é totalmente de código aberto, oferecendo a você transparência e flexibilidade completas. Implante o NVIDIA Dynamo, contribua para seu crescimento e integre-o perfeitamente ao seu stack existente.

 Confira no GitHub e junte-se à comunidade!

Desenvolva

Para indivíduos que buscam obter acesso ao código de código aberto do Servidor de Inferência Triton para o desenvolvimento.

Desenvolva

Para indivíduos que desejam acessar gratuitamente os contêineres do Servidor de Inferência Triton para desenvolvimento.

Experiência

Acesse a infraestrutura hospedada pela NVIDIA e laboratórios práticos guiados, que incluem instruções e exemplos passo a passo, disponíveis gratuitamente no NVIDIA LaunchPad.

Implante

Receba uma licença gratuita para experimentar o NVIDIA AI Enterprise em produção por 90 dias usando sua infraestrutura existente.  

Casos de Uso

Implantação de IA com o NVIDIA Dynamo

Descubra como você pode impulsionar a inovação com NVIDIA Dynamo.

Serviço de Modelos de Lógica

Os modelos de lógica geram mais tokens para resolver problemas complexos, aumentando os custos de inferência. O NVIDIA Dynamo otimiza esses modelos com recursos como serviço desagregado. Essa abordagem separa as fases computacionais de pré-preenchimento e decodificação em GPUs distintas, permitindo que as equipes de inferência de IA otimizem cada fase de forma independente. O resultado é uma melhor utilização de recursos, mais consultas atendidas por GPU,  e custos de inferência menores.

Inferência Distribuída

À medida que os modelos de IA crescem muito para caber em um único nó, servi-los com eficiência torna-se um desafio. A inferência distribuída requer a divisão de modelos em vários nós, o que adiciona complexidade em orquestração, escalabilidade e comunicação. A garantia de que esses nós funcionem como uma unidade coesa, especialmente em workloads dinâmicos, exige gerenciamento cuidadoso. O NVIDIA Dynamo simplifica isso fornecendo recursos pré-construídos nos Kubernetes, lidando com perfeição com o agendamento, a escalabilidade e o serviço, para que você possa se concentrar na implantação de IA, e não no gerenciamento de infraestrutura.

Agentes de IA Escaláveis

Os agentes de IA contam com vários modelos (LLMs, sistemas de recuperação e ferramentas especializadas) trabalhando em sincronização em tempo real. A escalabilidade desses agentes é um desafio complexo, que exige agendamento de GPU inteligente, gerenciamento de cache KV eficiente e comunicação de latência ultrabaixa para manter a capacidade de resposta.
O NVIDIA Dynamo simplifica esse processo com um planejador de GPU inteligente incorporado, roteador inteligente e biblioteca de comunicação de baixa latência, tornando a escalabilidade de agentes de IA perfeita e eficiente.

 

Geração de Códigos

A geração de código geralmente requer refinamento iterativo para ajustar prompts, esclarecer requisitos ou depurar saídas com base nas respostas do modelo. Essa ida e volta requer recomputação de contexto a cada vez que o usuário volta, aumentando os custos de inferência. O NVIDIA Dynamo otimiza esse processo permitindo a reutilização de contexto e o descarregamento para memória econômica, minimizando a recomputação cara e reduzindo os custos gerais de inferência.

Depoimentos de Clientes

Veja O Que os Líderes do Setor Têm a Dizer Sobre o NVIDIA Dynamo

Cohere

“A escalabilidade de modelos de IA avançados requer agendamento sofisticado de várias GPUs, coordenação perfeita e bibliotecas de comunicação de baixa latência que transferem contextos de lógica perfeitamente em memória e armazenamento. Esperamos que o Dynamo nos ajude a oferecer uma experiência de usuário de primeira linha a nossos clientes empresariais.” Saurabh Baji, Vice-Presidente Sênior de Engenharia da Cohere

Perplexity AI

"Ao lidarmos com centenas de milhões de solicitações mensalmente, contamos com as GPUs e o software de inferência da NVIDIA para oferecer o desempenho, a confiabilidade e a escala que nossos negócios e usuários exigem: "Estamos ansiosos para aproveitar o Dynamo com seus recursos de serviço distribuídos aprimorados para impulsionar ainda mais eficiências de serviço de inferência e atender às demandas de computação de novos modelos de lógica de IA." Denis Yarats, CTO da Perplexity AI.

Together AI

“A escalabilidade de modelos de lógica com economia de custos requer novas técnicas de inferência avançadas, incluindo serviço desagregado e roteamento consciente do contexto. Juntas, a IA fornece desempenho líder do setor usando nosso mecanismo de inferência proprietário. A abertura e modularidade do Dynamo nos permitirão conectar seus componentes ao nosso mecanismo para atender a mais solicitações, otimizando a utilização de recursos, maximizando nosso investimento em computação acelerada. " Ce Zhang, CTO da Together AI.

Histórias de Clientes

Como os Líderes do Setor Estão Aprimorando a Implantação de Modelos com a Plataforma NVIDIA Dynamo

Usuários

Principais Utilizadores em Todos os Setores

Recursos

As Últimas Novidades em Inferência da NVIDIA

Receba as Últimas Novidades

Leia sobre as atualizações e anúncios mais recentes de inferência para os Servidores de Inferência NVIDIA Dynamo.

Leia os Blogs Técnicos

Leia orientações técnicas sobre como começar a usar a inferência.

Aprofunde-se

Receba dicas e melhores práticas para implantar, executar e escalar modelos de IA para inferência para IA generativa, LLMs, sistemas de recomendação, visão computacional e muito mais.

Implantação, Otimização e Benchmarking de LLMs

Saiba como oferecer LLMs com eficiência com instruções passo a passo. Cobriremos como implantar facilmente um LLM em vários backends e comparar seu desempenho, bem como o modo de ajustar as configurações de implantação para um desempenho ideal.

Mova os Casos de Uso de IA Empresarial do Desenvolvimento para a Produção

Saiba o que é a inferência de IA, como ela se encaixa na estratégia de implantação de IA da sua empresa, quais são os principais desafios na implantação de casos de uso de IA de nível empresarial, por que uma solução de inferência de IA de pacote completo é necessária para enfrentar esses desafios, os principais componentes de uma plataforma de pacote completo e como implantar sua primeira solução de inferência de IA.

Aproveite a Potência de Soluções de Inferência de IA Prontas para a Nuvem

Explore como a plataforma de inferência de IA da NVIDIA se integra perfeitamente aos principais provedores de serviços de nuvem, simplificando a implantação e acelerando o lançamento de casos de uso de IA com tecnologia de LLM.

Guia de Início Rápido

Novo no NVIDIA Dynamo e quer implantar seu modelo rapidamente? Use este guia de início rápido para começar sua jornada com o NVIDIA Dynamo.

Tutoriais

Ao começar a usar o NVIDIA Dynamo, pode haver muitas perguntas. Explore este repositório para familiarizar-se com os recursos do NVIDIA Dynamo e encontre guias e exemplos que podem ajudar a facilitar a migração.

NVIDIA Brev

Desbloqueie a potência da GPU NVIDIA em segundos com o NVIDIA Brev: acesso instantâneo, configuração automática e implantação flexível nas principais plataformas de cloud. Comece a criar e escalar seus projetos de IA imediatamente.

5 Principais Motivos Pelos Quais o NVIDIA Dynamo Está Simplificando a Inferência

O NVIDIA Dynamo-Triton simplifica a implantação de modelos de IA em escala na produção, permitindo que as equipes implantem modelos de IA treinados de qualquer framework, desde armazenamento local ou plataforma de cloud, em qualquer infraestrutura baseada em GPU ou CPU.

Implante o Pipeline de Stable Diffusion do HuggingFace com o NVIDIA Dynamo

Este vídeo mostra a implantação do pipeline de Stable Diffusion disponível por meio da biblioteca de difusores HuggingFace. Usamos o NVIDIA Dynamo-Triton para implantar e executar o pipeline.

Primeiros Passos com o NVIDIA Dynamo-Triton

O NVIDIA Dynamo é uma solução de inferência de código aberto que padroniza a implantação de modelos e permite IA rápida e escalável em produção. Por causa de seus muitos recursos, uma pergunta natural a fazer é: por onde começo? Assista para descobrir.

Próximos Passos

Pronto para Começar?

Faça o download no GitHub e junte-se à comunidade!

Para Desenvolvedores

Explore tudo aquilo de que você precisa para começar a desenvolver com o NVIDIA Dynamo, incluindo a documentação mais recente, tutoriais, blogs técnicos e muito mais.

Fale Conosco

Converse com um especialista em produtos da NVIDIA sobre a transição do piloto para a produção com a segurança, estabilidade de API e suporte do NVIDIA AI Enterprise.

Leia o Comunicado à Imprensa | Leia o Blog de Tecnologia

Receba as Últimas Novidades

Leia sobre as atualizações e anúncios mais recentes de inferência para o Servidor de Inferência Dynamo.

Leia os Blogs Técnicos

Leia orientações técnicas sobre como começar a usar a inferência.

Aprofunde-se

Receba dicas e melhores práticas para implantar, executar e escalar modelos de IA para inferência para IA generativa, LLMs, sistemas de recomendação, visão computacional e muito mais.

Implantação, Otimização e Benchmarking de LLMs

Saiba como oferecer LLMs com eficiência com instruções passo a passo. Cobriremos como implantar facilmente um LLM em vários backends e comparar seu desempenho, bem como o modo de ajustar as configurações de implantação para um desempenho ideal.

Mova os Casos de Uso de IA Empresarial do Desenvolvimento para a Produção

Saiba o que é a inferência de IA, como ela se encaixa na estratégia de implantação de IA da sua empresa, quais são os principais desafios na implantação de casos de uso de IA de nível empresarial, por que uma solução de inferência de IA de pacote completo é necessária para enfrentar esses desafios, os principais componentes de uma plataforma de pacote completo e como implantar sua primeira solução de inferência de IA.

Aproveite a Potência de Soluções de Inferência de IA Prontas para a Nuvem

Explore como a plataforma de inferência de IA da NVIDIA se integra perfeitamente aos principais provedores de serviços de nuvem, simplificando a implantação e acelerando o lançamento de casos de uso de IA com tecnologia de LLM.

Guia de Início Rápido

Novo no Dynamo e quer implantar seu modelo rapidamente? Use este guia de início rápido para começar sua jornada no Dynamo.

Tutoriais

Ao começar a usar o Dynamo, pode haver muitas perguntas. Explore este repositório para familiarizar-se com os recursos do Dynamo e encontre guias e exemplos que podem ajudar a facilitar a migração.

NVIDIA LaunchPad

Nos laboratórios práticos, experimente uma IA rápida e escalável usando o NVIDIA Dynamo. Você poderá desbloquear imediatamente as vantagens da infraestrutura de computação acelerada da NVIDIA e dimensionar suas cargas de trabalho de IA.

5 Principais Motivos Pelos Quais o Dynamo Está Simplificando a Inferência

O Servidor de Inferência NVIDIA Dynamo simplifica a implantação de modelos de IA em escala na produção, permitindo que as equipes implantem modelos de IA treinados de qualquer framework, desde armazenamento local ou plataforma de nuvem, em qualquer infraestrutura baseada em GPU ou CPU.

Implante o Pipeline de Stable Diffusion do HuggingFace com Dynamo

Este vídeo mostra a implantação do pipeline de Stable Diffusion disponível por meio da biblioteca de difusores HuggingFace. Usamos o Servidor de Inferência Dynamo para implantar e executar o pipeline.

Comece Agora com o Servidor de Inferência NVIDIA Dynamo

O Servidor de Inferência Dynamo é uma solução de inferência de código aberto que padroniza a implantação de modelos e permite IA rápida e escalável em produção. Por causa de seus muitos recursos, uma pergunta natural a fazer é: por onde começo? Assista para descobrir.