Um prompt. Um conjunto de tokens para a resposta. Isso é chamado de inferência de IA. À medida que os modelos crescem em tamanho e complexidade, as empresas precisam de uma abordagem de stack completo e ferramentas de ponta a ponta para serem bem-sucedidas nessa nova era de leis de escalabilidade de IA.
Com modelos de raciocínio gerando exponencialmente mais tokens de IA, a demanda por computação está aumentando. Atender a isso requer fábricas de IA (infraestrutura criada especificamente e otimizada para inferência em escala com a NVIDIA Blackwell) projetadas para oferecer desempenho, eficiência e ROI em todos os setores.
A otimização de inferência de stack completo é a chave para garantir que você esteja pensando de forma inteligente sobre a escalabilidade de IA em escala de fábricas de IA.
A NVIDIA Blackwell permite a maior receita de fábricas de IA, incluindo um ROI de até 15 vezes. Isso é resultado do design de código extremo do NVIDIA Blackwell, do NVLink™ e do NVLink Switch para escalabilidade; do NVFP4 para precisão de baixa precisão; e do NVIDIA Dynamo e do TensorRT™-LLM para velocidade e flexibilidade, além de desenvolvimento com os frameworks comunitários SGLang, vLLM e muito mais.
Os resultados do DeepSeek-R1 8K/1K mostram um benefício de desempenho e uma oportunidade de receita de 15 vezes para o NVIDIA Blackwell GB200 NVL72 em relação ao Hopper H200.
O NVIDIA TensorRT-LLM alcança uma taxa de transferência máxima de 60.000 TPS/GPU, interatividade máxima de 1.000 TPS/usuário e uma melhoria de desempenho de 5 vezes em dois meses no gpt-oss-120b.
Padronize a implantação de modelos em aplicações, frameworks de IA, arquiteturas de modelos e plataformas.
Faça integração facilmente com ferramentas e plataformas em nuvens públicas, em data centers locais e no edge.
Obtenha alta taxa de transferência e utilização com infraestrutura de IA, reduzindo assim os custos.
Experimente o desempenho líder do setor com a plataforma que estabeleceu consistentemente vários recordes no MLPerf, o principal benchmark do setor para IA.
O NVIDIA AI Enterprise consiste no NVIDIA NIM™, no Servidor de Inferência NVIDIA Triton™, no NVIDIA® TensorRT™ e em outras ferramentas para simplificar a criação, o compartilhamento e a implantação de aplicações de IA. Com suporte, estabilidade, gerenciabilidade e segurança de nível empresarial, as empresas podem acelerar o tempo de geração de valor, eliminando o tempo de inatividade não planejado.
Tenha o desempenho de IA inigualável com o software de inferência de IA da NVIDIA, otimizado para infraestrutura acelerada pela NVIDIA. As tecnologias NVIDIA Blackwell Ultra, a GPU H200, a NVIDIA RTX PRO™ 6000 Blackwell Server Edition e as tecnologias NVIDIA RTX™ oferecem velocidade e eficiência excepcionais para cargas de trabalho de inferência de IA em data centers, nuvens e workstations.