Visão Geral

Qual é a Maneira Inteligente de Escalar a Inferência de IA?

Um prompt. Um conjunto de tokens para a resposta. Isso é chamado de inferência de IA. À medida que os modelos crescem em tamanho e complexidade, as empresas precisam de uma abordagem de stack completo e ferramentas de ponta a ponta para serem bem-sucedidas nessa nova era de leis de escalabilidade de IA.

Com modelos de raciocínio gerando exponencialmente mais tokens de IA, a demanda por computação está aumentando. Atender a isso requer fábricas de IA (infraestrutura criada especificamente e otimizada para inferência em escala com a NVIDIA Blackwell) projetadas para oferecer desempenho, eficiência e ROI em todos os setores.

A otimização de inferência de stack completo é a chave para garantir que você esteja pensando de forma inteligente sobre a escalabilidade de IA em escala de fábricas de IA.

NVIDIA Blackwell Estabelece o Padrão para ROI de Inferência

A NVIDIA Blackwell varreu os novos benchmarks SemiAnalysis InferenceMAX™ v1, alcançando o mais alto desempenho de inferência de IA e a melhor eficiência geral. A NVIDIA Blackwell permite a maior receita de fábricas de IA: um investimento de US$ 5 milhões no GB200 NVL72 gera US$ 75 milhões em receita de tokens, um retorno de 15 vezes sobre o investimento.

Inferência em Escala: a Fronteira para IA e ROI

Neste vídeo, detalhamos o equilíbrio crítico entre desempenho, potência e lucratividade na inferência de IA moderna. Saiba como a inferência mais inteligente e a infraestrutura de stack completo impulsionam a economia das fábricas de IA do amanhã.

NVIDIA Blackwell Maximiza o ROI em Inferência de IA

A NVIDIA Blackwell permite a maior receita de fábricas de IA, incluindo um ROI de até 15 vezes. Isso é resultado do design de código extremo do NVIDIA Blackwell, do NVLink™ e do NVLink Switch para escalabilidade; do NVFP4 para precisão de baixa precisão; e do NVIDIA Dynamo e do TensorRT™-LLM para velocidade e flexibilidade, além de desenvolvimento com os frameworks comunitários SGLang, vLLM e muito mais.

Os resultados do DeepSeek-R1 8K/1K mostram um benefício de desempenho e uma oportunidade de receita de 15 vezes para o NVIDIA Blackwell GB200 NVL72 em relação ao Hopper H200.

O NVIDIA TensorRT-LLM alcança uma taxa de transferência máxima de 60.000 TPS/GPU, interatividade máxima de 1.000 TPS/usuário e uma melhoria de desempenho de 5 vezes em dois meses no gpt-oss-120b.

Vantagens

Explore os Benefícios da IA da NVIDIA para Inferência Acelerada

Padronize a Implantação

Padronize a implantação de modelos em aplicações, frameworks de IA, arquiteturas de modelos e plataformas.

Integre e Expanda com Facilidade

Faça integração facilmente com ferramentas e plataformas em nuvens públicas, em data centers locais e no edge.

Menor Custo

Obtenha alta taxa de transferência e utilização com infraestrutura de IA, reduzindo assim os custos.

Alto Desempenho

Experimente o desempenho líder do setor com a plataforma que estabeleceu consistentemente vários recordes no MLPerf, o principal benchmark do setor para IA.

Software

Explore Nosso Software de Inferência de IA

O NVIDIA AI Enterprise consiste no NVIDIA NIM™, no Servidor de Inferência NVIDIA Triton™, no NVIDIA® TensorRT™ e em outras ferramentas para simplificar a criação, o compartilhamento e a implantação de aplicações de IA. Com suporte, estabilidade, gerenciabilidade e segurança de nível empresarial, as empresas podem acelerar o tempo de geração de valor, eliminando o tempo de inatividade não planejado.

O Caminho Mais Rápido Para Escalar com Inferência de IA

O NVIDIA Dynamo é um software de inferência de código aberto que acelera e escala modelos de raciocínio de IA em fábricas de IA com menos custo e máxima eficiência.

Potencialização de Agentes de IA de Última Geração

O NVIDIA NIM é um conjunto de microsserviços fáceis de usar, projetados para implantação segura e confiável de inferência de modelos de IA de alto desempenho em nuvens, data centers e workstations.

Um SDK para Desempenho de Inferência Líder do Setor

O TensorRT-LLM é uma biblioteca de código aberto para inferência de LLM de alto desempenho e em tempo real em GPUs NVIDIA. Com um tempo de execução modular de Python, autoria nativa de PyTorch e uma API de produção estável, ele é otimizado para maximizar a taxa de transferência, minimizar custos e oferecer experiências rápidas ao usuário.

Inferência sem Servidor do NVIDIA DGX Cloud

Uma solução de inferência de IA sem servidor e de alto desempenho que acelera a inovação da IA com autoescalonamento, uso eficiente de GPUs, flexibilidade em várias nuvens e escalabilidade perfeita.

Hardware

Explore Nossa Infraestrutura de Inferência de IA

Tenha o desempenho de IA inigualável com o software de inferência de IA da NVIDIA, otimizado para infraestrutura acelerada pela NVIDIA.  As tecnologias NVIDIA Blackwell Ultra, a GPU H200, a NVIDIA RTX PRO™ 6000 Blackwell Server Edition e as tecnologias NVIDIA RTX™ oferecem velocidade e eficiência excepcionais para cargas de trabalho de inferência de IA em data centers, nuvens e workstations.

NVIDIA GB300 NVL72

A demanda por inferência de IA está crescendo, e a NVIDIA Blackwell Ultra foi criado para atender a esse momento. Oferecendo 1,4 exaFLOPS em um único rack, a NVIDIA GB300 NVL72 unifica 72 GPUs NVIDIA Blackwell Ultra com NVIDIA NVLink™ e NVFP4 para impulsionar modelos grandes com eficiência extrema, alcançando uma produção de IA 50 vezes maior, reduzindo os custos de tokens e acelerando o raciocínio em tempo real em escala.

GPU NVIDIA H200

A GPU NVIDIA H200, parte da plataforma NVIDIA Hopper, impulsiona cargas de trabalho de IA generativa e computação de alto desempenho (HPC) com recursos de desempenho e memória para mudar os negócios. Como a primeira GPU com HBM3e, a memória maior e mais rápida da H200 impulsiona a aceleração da IA generativa e dos grandes modelos de linguagem (LLMs), ao mesmo tempo em que promove a computação científica para cargas de trabalho de HPC.

NVIDIA RTX PRO 6000 Blackwell Server Edition

A GPU RTX PRO 6000 Blackwell Server Edition oferece desempenho de inferência super impulsionado em uma ampla variedade de modelos de IA, alcançando um desempenho até 5 vezes maior para aplicações de IA generativa e baseadas em agentes em escala empresarial em comparação com a NVIDIA L40S da geração anterior. Os servidores NVIDIA RTX PRO™, disponíveis em parceiros de sistemas globais, levam o desempenho e a eficiência da arquitetura Blackwell para todos os data centers empresariais.

NVIDIA RTX PRO 6000 Blackwell Workstation Edition

A RTX PRO 6000 Blackwell Workstation Edition é a primeira GPU para desktop a oferecer 96GB de memória de GPU. A potência da arquitetura de GPU Blackwell, combinada com a grande memória da GPU e o stack de software de IA da NVIDIA, permitem que as workstations com RTX PRO ofereçam uma aceleração incrível para IA generativa e inferência de LLM diretamente no desktop.

Explore a História por Trás da IA em Escala

Você já se perguntou como os trade-offs complexos de IA se traduzem em resultados reais? Explore diferentes pontos das curvas de desempenho abaixo para ver em primeira mão como as inovações nas configurações de hardware e implantação impactam a eficiência do data center e a experiência do usuário.

Toy Jensen
TPS / usuário
TPS / MW
Experiência de Chat Simulado

DeepSeek R1 ISL = 32K, OSL = 8K, GB300 NVL72 com desagregação FP4 Dynamo. H100 com agrupamento em tempo real FP8. Desempenho projetado sujeito a alterações.

Como cada configuração se traduz em experiências reais de usuários? Explore as curvas sozinho ou com a orientação do TJ clicando em "Explore com o TJ" e veja-as ganharem vida no bate-papo simulado à direita.

 

Histórias de Clientes

Como os Líderes do Setor Estão Gerando Inovação com Inferência de IA.

Amdocs

Acelere o Desempenho de IA Generativa e Reduza os Custos

Leia como a Amdocs criou a amAIz, uma plataforma de IA generativa específica de domínio para empresas de telecomunicações, usando os microsserviços de inferência NVIDIA DGX™ Cloud e NVIDIA NIM para melhorar a latência, aumentar a precisão e reduzir custos.

Snapchat

Aprimorando as Compras de Roupas com IA

Saiba como o Snapchat aprimorou a experiência de compra de roupas e o reconhecimento óptico de caracteres com emojis usando o Servidor de Inferência Triton para dimensionar, reduzir custos e acelerar o tempo de produção.

Amazon

Acelere a Satisfação do Cliente

Descubra como a Amazon melhorou a satisfação do cliente ao tornar sua inferência 5 vezes mais rápida com o TensorRT.

Recursos

Últimas Novidades em Recursos de Inferência de IA

Comece a Usar a Inferência no NVIDIA LaunchPad

Você tem um projeto de IA em andamento? Inscreva-se para obter experiência prática em testes e prototipagem de suas soluções de IA.

Explore a IA Generativa e Caminhos de Aprendizagem para LLM

Aumente suas habilidades técnicas em IA generativa e grandes modelos de linguagem com nossos caminhos de aprendizagem abrangentes.

Comece a Usar a Inferência e IA Generativa no NVIDIA LaunchPad

Acelere sua jornada de IA generativa com acesso imediato e de curto prazo aos microsserviços de inferência e modelos de IA NVIDIA NIM, gratuitamente.

Implantação de IA Generativa na Produção com o NVIDIA NIM

Libere o potencial da IA generativa com o NVIDIA NIM. Este vídeo aborda como os microsserviços NVIDIA NIM podem transformar sua implantação de IA em uma potência pronta para a produção.

Os 5 Principais Motivos Pelos Quais o Triton Está Simplificando a Inferência

O Servidor de Inferência Triton simplifica a implantação de modelos de IA em escala na produção. Software de serviço de inferência de código aberto, ele permite que as equipes implementem modelos de IA treinados a partir de qualquer framework, a partir de armazenamento local ou plataforma em nuvem, em qualquer infraestrutura baseada em GPU ou CPU.

UneeQ

A NVIDIA Apresenta os NIMs

Você já se perguntou do que a tecnologia NIM da NVIDIA é capaz? Mergulhe no mundo dos humanos digitais e robôs alucinantes para ver o que os NIMs tornam possível.

Próximos Passos

Pronto para começar?

Explore tudo aquilo de que você precisa para começar a desenvolver sua aplicação de IA, incluindo a documentação mais recente, tutoriais, blogs técnicos e muito mais.

Encontre o Hardware Certo para seus Workloads de Inferência

As soluções de data center da NVIDIA estão disponíveis por meio de parceiros selecionados da NVIDIA Partner Network (NPN). Explore opções flexíveis e acessíveis para acessar as tecnologias de data center mais recentes da NVIDIA por meio de nossa rede de parceiros.

Receba as Últimas Notícias Sobre a Inferência de IA da NVIDIA

Inscreva-se para receber as últimas notícias, atualizações e muito mais sobre inferência de IA da NVIDIA.