Visão Geral

Qual é a Maneira Inteligente de Escalar a Inferência de IA?

Um prompt. Um conjunto de tokens para a resposta. Isso é chamado de inferência de IA. À medida que os modelos crescem em tamanho e complexidade, as empresas precisam de uma abordagem de stack completo e ferramentas de ponta a ponta para serem bem-sucedidas nessa nova era de leis de escalabilidade de IA.

Com modelos de raciocínio gerando exponencialmente mais tokens de IA, a demanda por computação está aumentando. Atender a isso requer fábricas de IA (infraestrutura criada especificamente e otimizada para inferência em escala com a NVIDIA Blackwell) projetadas para oferecer desempenho, eficiência e ROI em todos os setores.

A otimização de inferência de stack completo é a chave para garantir que você esteja pensando de forma inteligente sobre a escalabilidade de IA em escala de fábricas de IA.

A Combinação de Especialistas Impulsiona os Modelos de IA Mais Inteligentes, Executados dez vezes Mais Rápido no NVIDIA Blackwell NVL72

Saiba por que o co-design extremo do NVIDIA Blackwell NVL72 é o único sistema em escala de rack capaz de oferecer um salto de desempenho de inferência dez vezes maior em uma ampla variedade de modelos de combinação de especialistas (MoE), incluindo Kimi K2 Thinking, DeepSeek-R1 e Mistral Large 3.

AWS, Google, Microsoft e OCI Aumentam Desempenho de Inferência de IA para Clientes de Nuvem com o NVIDIA Dynamo

O NVIDIA Dynamo trabalha com o Kubernetes para simplificar o gerenciamento da inferência de IA de um nó ou multi nó. O NVIDIA Grove, uma nova API do NVIDIA Dynamo, orquestra a inferência do sistema a partir de uma especificação única e de alto nível. O Dynamo se integra aos serviços gerenciados do Kubernetes de todos os principais provedores de nuvem, permitindo que os clientes escalem usando NVIDIA Blackwell.

NVIDIA Blackwell Maximiza o ROI em Inferência de IA

A NVIDIA Blackwell permite a maior receita de fábricas de IA, incluindo um ROI de até 15 vezes. Isso é resultado do design de código extremo do NVIDIA Blackwell, do NVLink™ e do NVLink Switch para escalabilidade; do NVFP4 para precisão de baixa precisão; e do NVIDIA Dynamo e do TensorRT™-LLM para velocidade e flexibilidade, além de desenvolvimento com os frameworks comunitários SGLang, vLLM e muito mais.

Os resultados do DeepSeek-R1 8K/1K mostram um benefício de desempenho e uma oportunidade de receita de 15 vezes para o NVIDIA Blackwell GB200 NVL72 em relação ao Hopper H200.

O NVIDIA TensorRT-LLM alcança uma taxa de transferência máxima de 60.000 TPS/GPU, interatividade máxima de 1.000 TPS/usuário e uma melhoria de desempenho de 5 vezes em dois meses no gpt-oss-120b.

Vantagens

Explore os Benefícios da IA da NVIDIA para Inferência Acelerada

Padronize a Implantação

Padronize a implantação de modelos em aplicações, frameworks de IA, arquiteturas de modelos e plataformas.

Integre e Expanda com Facilidade

Faça integração facilmente com ferramentas e plataformas em nuvens públicas, em data centers locais e no edge.

Menor Custo

Obtenha alta taxa de transferência e utilização com infraestrutura de IA, reduzindo assim os custos.

Alto Desempenho

Experimente o desempenho de inferência de última geração com a plataforma que estabeleceu vários recordes no MLPerf, o principal benchmark do setor para IA.

Software

Explore Nosso Software de Inferência de IA

A IA da NVIDIA Inference inclui a Plataforma NVIDIA Dynamo, o TensorRT™-LLM, o NVIDIA NIM™ e outras ferramentas para simplificar a criação, compartilhamento e implantação de aplicações de IA. A plataforma de inferência da NVIDIA integra as principais ferramentas de código aberto, acelera o desempenho e permite a implantação escalável e confiável em infraestruturas, software e ecossistemas de nível empresarial.

O Caminho Mais Rápido Para Escalar com Inferência de IA

O NVIDIA Dynamo é um software de inferência de código aberto que acelera e escala modelos de raciocínio de IA em fábricas de IA com menos custo e máxima eficiência.

Potencialização de Agentes de IA de Última Geração

O NVIDIA NIM é um conjunto de microsserviços fáceis de usar, projetados para implantação segura e confiável de inferência de modelos de IA de alto desempenho em nuvens, data centers e workstations.

Um SDK para Desempenho de Inferência Líder do Setor

O TensorRT-LLM é uma biblioteca de código aberto para inferência de LLM de alto desempenho e em tempo real em GPUs NVIDIA. Com um tempo de execução modular de Python, autoria nativa de PyTorch e uma API de produção estável, ele é otimizado para maximizar a taxa de transferência, minimizar custos e oferecer experiências rápidas ao usuário.

Inferência sem Servidor do NVIDIA DGX Cloud

Uma solução de inferência de IA sem servidor e de alto desempenho que acelera a inovação da IA com autoescalonamento, uso eficiente de GPUs, flexibilidade em várias nuvens e escalabilidade perfeita.

Hardware

Explore Nossa Infraestrutura de Inferência de IA

Tenha o desempenho de IA inigualável com o software de inferência de IA da NVIDIA, otimizado para infraestrutura acelerada pela NVIDIA.  As tecnologias NVIDIA Blackwell Ultra, a GPU H200, a NVIDIA RTX PRO™ 6000 Blackwell Server Edition e as tecnologias NVIDIA RTX™ oferecem velocidade e eficiência excepcionais para cargas de trabalho de inferência de IA em data centers, nuvens e workstations.

NVIDIA GB300 NVL72

A demanda por inferência de IA está crescendo, e a NVIDIA Blackwell Ultra foi criado para atender a esse momento. Oferecendo 1,4 exaFLOPS em um único rack, a NVIDIA GB300 NVL72 unifica 72 GPUs NVIDIA Blackwell Ultra com NVIDIA NVLink™ e NVFP4 para impulsionar modelos grandes com eficiência extrema, alcançando uma produção de IA 50 vezes maior, reduzindo os custos de tokens e acelerando o raciocínio em tempo real em escala.

GPU NVIDIA H200

A GPU NVIDIA H200, parte da plataforma NVIDIA Hopper, impulsiona cargas de trabalho de IA generativa e computação de alto desempenho (HPC) com recursos de desempenho e memória para mudar os negócios. Como a primeira GPU com HBM3e, a memória maior e mais rápida da H200 impulsiona a aceleração da IA generativa e dos grandes modelos de linguagem (LLMs), ao mesmo tempo em que promove a computação científica para cargas de trabalho de HPC.

NVIDIA RTX PRO 6000 Blackwell Server Edition

A GPU RTX PRO 6000 Blackwell Server Edition oferece desempenho de inferência super impulsionado em uma ampla variedade de modelos de IA, alcançando um desempenho até 5 vezes maior para aplicações de IA generativa e baseadas em agentes em escala empresarial em comparação com a NVIDIA L40S da geração anterior. Os servidores NVIDIA RTX PRO™, disponíveis em parceiros de sistemas globais, levam o desempenho e a eficiência da arquitetura Blackwell para todos os data centers empresariais.

NVIDIA RTX PRO 6000 Blackwell Workstation Edition

A RTX PRO 6000 Blackwell Workstation Edition é a primeira GPU para desktop a oferecer 96GB de memória de GPU. A potência da arquitetura de GPU Blackwell, combinada com a grande memória da GPU e o stack de software de IA da NVIDIA, permitem que as workstations com RTX PRO ofereçam uma aceleração incrível para IA generativa e inferência de LLM diretamente no desktop.

Explore a História por Trás da IA em Escala

Você já se perguntou como os trade-offs complexos de IA se traduzem em resultados reais? Explore diferentes pontos das curvas de desempenho abaixo para ver em primeira mão como as inovações nas configurações de hardware e implantação impactam a eficiência do data center e a experiência do usuário.

Toy Jensen
TPS / usuário
TPS / MW
Experiência de Chat Simulado

DeepSeek R1 ISL = 32K, OSL = 8K, GB300 NVL72 com desagregação FP4 Dynamo. H100 com agrupamento em tempo real FP8. Desempenho projetado sujeito a alterações.

Como cada configuração se traduz em experiências reais de usuários? Explore as curvas sozinho ou com a orientação do TJ clicando em "Explore com o TJ" e veja-as ganharem vida no bate-papo simulado à direita.

 

Histórias de Clientes

Como os Líderes do Setor Estão Gerando Inovação com Inferência de IA.

Amdocs

Acelere o Desempenho de IA Generativa e Reduza os Custos

Leia como a Amdocs criou a amAIz, uma plataforma de IA generativa específica de domínio para empresas de telecomunicações, usando os microsserviços de inferência NVIDIA DGX™ Cloud e NVIDIA NIM para melhorar a latência, aumentar a precisão e reduzir custos.

Snapchat

Aprimorando as Compras de Roupas com IA

Saiba como o Snapchat aprimorou a experiência de compra de roupas e o reconhecimento óptico de caracteres com emojis usando o Servidor de Inferência Triton para dimensionar, reduzir custos e acelerar o tempo de produção.

Amazon

Acelere a Satisfação do Cliente

Descubra como a Amazon melhorou a satisfação do cliente ao tornar sua inferência 5 vezes mais rápida com o TensorRT.

Recursos

Últimas Novidades em Recursos de Inferência de IA

Comece a Usar a Inferência no NVIDIA LaunchPad

Você tem um projeto de IA em andamento? Inscreva-se para obter experiência prática em testes e prototipagem de suas soluções de IA.

Explore a IA Generativa e Caminhos de Aprendizagem para LLM

Aumente suas habilidades técnicas em IA generativa e grandes modelos de linguagem com nossos caminhos de aprendizagem abrangentes.

Comece a Usar a Inferência e IA Generativa no NVIDIA LaunchPad

Acelere sua jornada de IA generativa com acesso imediato e de curto prazo aos microsserviços de inferência e modelos de IA NVIDIA NIM, gratuitamente.

Implantação de IA Generativa na Produção com o NVIDIA NIM

Libere o potencial da IA generativa com o NVIDIA NIM. Este vídeo aborda como os microsserviços NVIDIA NIM podem transformar sua implantação de IA em uma potência pronta para a produção.

Os 5 Principais Motivos Pelos Quais o Triton Está Simplificando a Inferência

O Servidor de Inferência Triton simplifica a implantação de modelos de IA em escala na produção. Software de serviço de inferência de código aberto, ele permite que as equipes implementem modelos de IA treinados a partir de qualquer framework, a partir de armazenamento local ou plataforma em nuvem, em qualquer infraestrutura baseada em GPU ou CPU.

UneeQ

A NVIDIA Apresenta os NIMs

Você já se perguntou do que a tecnologia NIM da NVIDIA é capaz? Mergulhe no mundo dos humanos digitais e robôs alucinantes para ver o que os NIMs tornam possível.

Próximos Passos

Pronto para começar?

Explore tudo aquilo de que você precisa para começar a desenvolver sua aplicação de IA, incluindo a documentação mais recente, tutoriais, blogs técnicos e muito mais.

Encontre o Hardware Certo para seus Workloads de Inferência

As soluções de data center da NVIDIA estão disponíveis por meio de parceiros selecionados da NVIDIA Partner Network (NPN). Explore opções flexíveis e acessíveis para acessar as tecnologias de data center mais recentes da NVIDIA por meio de nossa rede de parceiros.

Receba as Últimas Notícias Sobre a Inferência de IA da NVIDIA

Inscreva-se para receber as últimas notícias, atualizações e muito mais sobre inferência de IA da NVIDIA.