Visão Geral
A inferência de IA, como experimentamos a IA por meio de chatbots, copilotos e ferramentas criativas, está escalando em um ritmo cada vez mais rápido. A adoção dos usuários está acelerando, enquanto os tokens de IA gerados por interação, impulsionados por workflows baseados em agentes, raciocínio de longo prazo e modelos de mistura de módulos especialistas (MoE), aumentam em paralelo.
Para permitir a inferência nessa escala maciça, a NVIDIA oferece arquitetura em escala de data center em um ritmo anual. Nosso codesign extremo de hardware e software oferece saltos de ordem de magnitude no desempenho e reduz o custo por token, tornando as experiências de IA avançadas economicamente viáveis em escala.
O NVIDIA GB300 NVL72 oferece 50 vezes mais tokens por watt e um custo de token 35 vezes menor em relação ao Hopper™, maximizando a receita com o mesmo orçamento de energia e impulsionando margens de lucro mais altas. Otimizações contínuas de software extraem o desempenho máximo em escala de chips, racks e Data Centers, melhorando ainda mais o retorno sobre o investimento ao longo do tempo.
Benefícios
Com codesign extremo de hardware e software, o NVIDIA GB300 NVL72 oferece 50 vezes mais tokens por watt do que o Hopper, maximizando a receita das fábricas de IA com o mesmo orçamento de energia. Otimizações contínuas de software extraem o desempenho máximo em escala de chips, racks e Data Centers, melhorando ainda mais o retorno sobre o investimento ao longo do tempo.
O sistema NVIDIA GB300 NVL72 oferece custo por token 35 vezes menor em relação à plataforma NVIDIA Hopper, gerando margens de lucro mais altas para fábricas de IA. A cada geração, as melhorias de desempenho superam os custos de infraestrutura, criando melhor economia para permitir experiências de IA avançadas em larga escala.
A NVIDIA é compatível com todos os modelos em IA generativa, ML tradicional, computação científica, biologia e IA física. Desde aplicações em tempo real sensíveis à latência até o processamento em lote de alto rendimento, a NVIDIA oferece o melhor desempenho para todos os casos de uso. A plataforma fornece o máximo de flexibilidade e programabilidade para escolher a configuração ideal para workloads e requisitos empresariais em evolução.
O software pronto para produção da NVIDIA, incluindo Dynamo e TensorRT™ LLM, e a integração nativa com os principais frameworks, como PyTorch, vLLM, SGLang e llm-d, oferecem o stack de inferência de IA mais robusto. À medida que as arquiteturas de modelos e técnicas de inferência evoluem rapidamente, o stack da NVIDIA garante o caminho mais rápido da inovação à produção.
Plataforma
Hardware poderoso sem orquestração inteligente desperdiça potencial; ótimo software sem hardware rápido significa desempenho de inferência lento. A plataforma de inferência da NVIDIA oferece uma solução de stack completo continuamente otimizada com computação, rede, armazenamento e software co-projetados para permitir o mais alto desempenho em diversas cargas de trabalho.
Explore algumas das principais inovações de hardware e software da NVIDIA.
Histórias de Clientes
Recursos
Próximos Passos