Inferência de IA
Escale e Ofereça IA Generativa Rapidamente.
A Plataforma NVIDIA Dynamo é uma plataforma de inferência de alto desempenho e baixa latência projetada para atender a todos os modelos de IA, em qualquer framework, arquitetura ou escala de implantação. Não importa se você está executando reconhecimento de imagens em uma única GPU de nível básico ou implantando grandes modelos de raciocínio de linguagem com bilhões de parâmetros em centenas de milhares de GPUs de data centers, a Plataforma NVIDIA Dynamo oferece inferência de IA escalável e eficiente.
A Plataforma NVIDIA Dynamo inclui dois frameworks de serviços de inferência de código aberto.
O NVIDIA Dynamo atende a modelos de IA generativa em ambientes distribuídos de larga escala. Ele apresenta otimizações específicas para grandes modelos de linguagem (LLM), como serviço desagregado e roteamento otimizado para cache de chave-valor (cache KV), para permitir que fábricas de IA maximizem a geração de receita de tokens e sejam executadas ao menor custo possível. Os microsserviços NVIDIA NIM™ incluirão as capacidades do Dynamo, fornecendo uma opção de implantação rápida e fácil. O Dynamo também será compatível e estará disponível com o NVIDIA AI Enterprise.
O NVIDIA Dynamo-Triton, anteriormente conhecido como Servidor de Inferência NVIDIA Triton™, padroniza a implantação e execução de modelos de IA em todas as cargas de trabalho. É compatível com todos os backends de inferência de IA e pode ser executado em GPUs ou CPUs, permitindo que empresas e ISVs integrem de forma rápida e econômica a IA em seus produtos e serviços. O Dynamo-Triton está disponível hoje nos microsserviços NVIDIA NIM e com o NVIDIA AI Enterprise para suporte, segurança e estabilidade de nível empresarial.
Separa as fases de contexto (pré-preenchimento) e geração (decodificação) de LLM em GPUs distintas, permitindo o paralelismo de modelos personalizados e a alocação de GPUs independente para aumentar as solicitações atendidas por GPU.
Monitora a capacidade da GPU em ambientes de inferência distribuídos e aloca dinamicamente os trabalhadores de GPU em todas as fases de contexto e geração para resolver os gargalos e otimizar o desempenho.
Rotas de inferência de tráfego feitas de forma eficiente, minimizando a recomputação cara de solicitações de repetição ou de sobreposição para preservar os recursos de computação e garantindo uma distribuição de carga equilibrada em grandes frotas de GPUs.
Acelera a movimentação de dados em configurações de inferência distribuídas, simplificando as complexidades de transferência em diversos hardwares, incluindo GPUs, CPUs, redes e armazenamento.
Simplifique e automatize a configuração de clusters de GPUs com ferramentas pré-construídas e fáceis de implantar e permita a escalabilidade automática dinâmica com métricas específicas de LLM em tempo real, evitando o provisionamento excessivo ou insuficiente de recursos de GPU.
Aproveite a inferência de LLM avançada, que serve otimizações, como o serviço desagregado, para aumentar o número de solicitações de inferência atendidas sem comprometer a experiência do usuário.
O design aberto e modular permite que você escolha facilmente os componentes que atendem às suas necessidades exclusivas, garantindo a compatibilidade com o stack de IA existente e evitando projetos de migração dispendiosos.
O suporte do NVIDIA Dynamo para todos os principais frameworks, incluindo TensorRT-LLM, vLLM, SGLang, PyTorch e muito mais, garante sua capacidade de implantar rapidamente novos modelos de IA generativa, independentemente de seu backend.
O NVIDIA Dynamo é totalmente de código aberto, oferecendo a você transparência e flexibilidade completas. Implante o NVIDIA Dynamo, contribua para seu crescimento e integre-o perfeitamente ao seu stack existente.
Confira no GitHub e junte-se à comunidade!
Descubra como você pode impulsionar a inovação com NVIDIA Dynamo.
Os modelos de lógica geram mais tokens para resolver problemas complexos, aumentando os custos de inferência. O NVIDIA Dynamo otimiza esses modelos com recursos como serviço desagregado. Essa abordagem separa as fases computacionais de pré-preenchimento e decodificação em GPUs distintas, permitindo que as equipes de inferência de IA otimizem cada fase de forma independente. O resultado é uma melhor utilização de recursos, mais consultas atendidas por GPU, e custos de inferência menores.
À medida que os modelos de IA crescem muito para caber em um único nó, servi-los com eficiência torna-se um desafio. A inferência distribuída requer a divisão de modelos em vários nós, o que adiciona complexidade em orquestração, escalabilidade e comunicação. A garantia de que esses nós funcionem como uma unidade coesa, especialmente em workloads dinâmicos, exige gerenciamento cuidadoso. O NVIDIA Dynamo simplifica isso fornecendo recursos pré-construídos nos Kubernetes, lidando com perfeição com o agendamento, a escalabilidade e o serviço, para que você possa se concentrar na implantação de IA, e não no gerenciamento de infraestrutura.
Os agentes de IA contam com vários modelos (LLMs, sistemas de recuperação e ferramentas especializadas) trabalhando em sincronização em tempo real. A escalabilidade desses agentes é um desafio complexo, que exige agendamento de GPU inteligente, gerenciamento de cache KV eficiente e comunicação de latência ultrabaixa para manter a capacidade de resposta.
O NVIDIA Dynamo simplifica esse processo com um planejador de GPU inteligente incorporado, roteador inteligente e biblioteca de comunicação de baixa latência, tornando a escalabilidade de agentes de IA perfeita e eficiente.
A geração de código geralmente requer refinamento iterativo para ajustar prompts, esclarecer requisitos ou depurar saídas com base nas respostas do modelo. Essa ida e volta requer recomputação de contexto a cada vez que o usuário volta, aumentando os custos de inferência. O NVIDIA Dynamo otimiza esse processo permitindo a reutilização de contexto e o descarregamento para memória econômica, minimizando a recomputação cara e reduzindo os custos gerais de inferência.
“A escalabilidade de modelos de IA avançados requer agendamento sofisticado de várias GPUs, coordenação perfeita e bibliotecas de comunicação de baixa latência que transferem contextos de lógica perfeitamente em memória e armazenamento. Esperamos que o Dynamo nos ajude a oferecer uma experiência de usuário de primeira linha a nossos clientes empresariais.” Saurabh Baji, Vice-Presidente Sênior de Engenharia da Cohere
"Ao lidarmos com centenas de milhões de solicitações mensalmente, contamos com as GPUs e o software de inferência da NVIDIA para oferecer o desempenho, a confiabilidade e a escala que nossos negócios e usuários exigem: "Estamos ansiosos para aproveitar o Dynamo com seus recursos de serviço distribuídos aprimorados para impulsionar ainda mais eficiências de serviço de inferência e atender às demandas de computação de novos modelos de lógica de IA." Denis Yarats, CTO da Perplexity AI.
“A escalabilidade de modelos de lógica com economia de custos requer novas técnicas de inferência avançadas, incluindo serviço desagregado e roteamento consciente do contexto. Juntas, a IA fornece desempenho líder do setor usando nosso mecanismo de inferência proprietário. A abertura e modularidade do Dynamo nos permitirão conectar seus componentes ao nosso mecanismo para atender a mais solicitações, otimizando a utilização de recursos, maximizando nosso investimento em computação acelerada. " Ce Zhang, CTO da Together AI.
Faça o download no GitHub e junte-se à comunidade!
Explore tudo aquilo de que você precisa para começar a desenvolver com o NVIDIA Dynamo, incluindo a documentação mais recente, tutoriais, blogs técnicos e muito mais.
Converse com um especialista em produtos da NVIDIA sobre a transição do piloto para a produção com a segurança, estabilidade de API e suporte do NVIDIA AI Enterprise.