Projetados para implantação rápida e confiável de inferência de IA generativa acelerada em qualquer lugar.
O NVIDIA NIM™ fornece microsserviços de inferência pré-construídos e otimizados para a implantação rápida dos modelos de IA mais recentes em qualquer infraestrutura acelerada pela NVIDIA: nuvem, data center, workstation e edge.
O NVIDIA NIM combina a facilidade de uso e a simplicidade operacional das APIs gerenciadas com a flexibilidade e segurança dos modelos de auto-hospedagem na sua infraestrutura preferida. Os microsserviços NIM acompanham tudo o que as equipes de IA precisam: modelos fundacionais de IA mais recentes, mecanismos de inferência otimizados, APIs padrão do setor e dependências de tempo de execução, pré-empacotados em contêineres de software de nível empresarial prontos para implantação e dimensionamento em qualquer lugar.
Microsserviços fáceis de usar e de nível empresarial criados para IA de alto desempenho, projetados para funcionar com perfeição e escalar de maneira acessível. Experimente o mais rápido tempo de geração de valor para agentes de IA e outras aplicações de IA generativa empresarial, capacitadas pelos modelos de IA mais recentes para lógica, simulação, fala e muito mais.
Acelere a inovação e o tempo de chegada ao mercado com microsserviços pré-construídos e otimizados para os modelos de IA mais recentes. Com APIs padrão, os modelos podem ser implantados em cinco minutos e facilmente integrados às aplicações.
Implante microsserviços de nível empresarial que são continuamente gerenciados pela NVIDIA por meio de processos de validação rigorosos e ramais de recursos dedicados, todos com suporte empresarial da NVIDIA, que também oferece acesso direto aos seus especialistas em IA.
Melhore o TCO com a inferência de IA de baixa latência e alto rendimento que escala com a nuvem, e alcance a melhor precisão com suporte para modelos minuciosamente ajustados e prontos para uso.
Implante em qualquer lugar com microsserviços pré-construídos e nativos de nuvem prontos para execução em qualquer infraestrutura acelerada pela NVIDIA (nuvem, data center e workstation) e escale com perfeição em ambientes Kubernetes e de provedores de serviços de nuvem.
O NVIDIA NIM fornece rendimento e latência otimizados desde o início para maximizar a geração de tokens, além de oferecer suporte a usuários simultâneos em horários de pico e melhorar a capacidade de resposta. Os microsserviços NIM são continuamente atualizados com os mecanismos de inferência otimizados mais recentes, aumentando o desempenho na mesma infraestrutura ao longo do tempo.
Configuração: instrução Llama 3.1 8B, 1 unidade de H100 SXM; solicitações simultâneas: 200. NIM ATIVO: FP8, rendimento de 1201 tokens/s, ITL de 32 ms. NIM INATIVO: FP8, rendimento de 613 tokens/s, ITL de 37 ms.
Obtenha um desempenho de inferência otimizado para os modelos de IA mais recentes para capacitar a IA baseada em agentes multimodais com lógica, linguagem, recuperação, fala, imagem e muito mais. O NIM vem com mecanismos de inferência acelerada da NVIDIA e da comunidade, incluindo o NVIDIA® TensorRT™, o TensorRT-LLM e muito mais, pré-criados e otimizados para inferência de baixa latência e alto rendimento na infraestrutura acelerada pela NVIDIA.
Projetados para serem executados em qualquer lugar, os microsserviços de inferência NIM expõem APIs padrão do setor para fácil integração com sistemas e aplicações empresariais, além de escalarem com perfeição no Kubernetes para oferecer inferência de alto rendimento e baixa latência em escala de nuvem.
Implante o NIM para o seu modelo com um único comando. Também é fácil você executar o NIM com modelos ajustados com precisão.
Coloque o NIM em funcionamento com o mecanismo de tempo de execução ideal baseado em sua infraestrutura acelerada pela NVIDIA.
Integre os terminais auto-hospedados do NIM com apenas algumas linhas de código.
Veja como o NVIDIA NIM é compatível com casos de uso do setor e comece seu desenvolvimento de IA com exemplos selecionados.
Aprimore as experiências dos clientes e melhore os processos empresariais com a IA generativa.
Use a IA generativa para acelerar e automatizar o processamento de documentos.
Ofereça experiências customizadas que melhoram a satisfação do cliente com o poder da IA.
Use o OpenUSD e a IA generativa para desenvolver e implantar ferramentas e experiências de configuradores de produtos 3D em praticamente qualquer dispositivo.