Grip, Moët Hennessy
A missão da Baseten é capacitar as aplicações impulsionadas por IA do mundo. À medida que os modelos de IA cresceram em tamanho e complexidade, especialmente com o aumento das capacidades de raciocínio de IA, A Baseten adotou a arquitetura de GPU para data center mais recente da NVIDIA, NVIDIA Blackwell, no Google Cloud, juntamente com o framework de inferência NVIDIA Dynamo e o NVIDIA TensorRT™-LLM para ajudar seus clientes a escalar rapidamente e atender à crescente demanda por IA.
Baseten
Google Cloud
Inferência personalizada
NVIDIA Dynamo
NVIDIA Data Center/Cloud
NVIDIA Tensor - LLM
5 Vezes Mais Rendimento para Endpoints de Alto Tráfego
Dobro de Preço-Desempenho Atendendo a Modelos de Raciocínio de Ponta
LLM Até 38% Mais Rápido Para Melhor Experiência e Adoção do Usuário
Com os tamanhos dos modelos de IA aumentando rapidamente e com novas tarefas de raciocínio exigindo tempos de inferência de IA mais longos devido à geração de tokens "pensantes", a demanda por desempenho computacional mais eficiente em termos de custo e atendimento de inferência multi-nós nunca foi maior. Para enfrentar esse desafio, Baseten recorreu às GPUs NVIDIA Blackwell, desbloqueando uma nova onda de desempenho e eficiência.
Fundada em 2019, a Baseten reúne GPUs de mais de 10 provedores de cloud em dezenas de regiões globais, criando um pool de GPUs escaláveis unificadas que suportam as cargas de trabalho de IA exigentes de algumas das empresas de IA que mais crescem no mundo.
Para tornar isso possível, Baseten criou uma camada sofisticada de orquestração de software que abstrai as complexidades do gerenciamento de infraestrutura e as variações de latência que surgem da diversidade geográfica das instâncias de GPU na cloud. Esse sistema habilitado pela plataforma NVIDIA CUDA, uma poderosa arquitetura de computação paralela que fornece a base de software para GPUs executarem cargas de trabalho de IA com eficiência, quebra os silos entre clusters de GPUs em diferentes provedores e regiões, transformando-os em um único pool de GPUs unificado. Os nós de GPU, não importa onde residam, tornam-se completamente fungíveis e integrados para seus usuários finais.
Como resultado, a Baseten desenvolveu o gerenciamento de capacidade em várias cloud (MCM), com a capacidade de provisionar milhares de GPUs em menos de cinco minutos, utilizando seu pool global de recursos computacionais em diferentes provedores de serviços de cloud.
Baseten
Oferecer inferência em tempo real e de nível de produção para grandes modelos de linguagem de ponta que exigem exponencialmente mais memória, computação e suporte para enormes janelas de contexto requer uma nova abordagem: que possa gerenciar com eficiência o tempo de processamento e os processos de raciocínio intrincados inerentes às cargas de trabalho de IA mais sofisticadas da atualidade, tudo mantendo a velocidade, a escalabilidade e a eficiência de custos sem comprometer. Reconhecendo essas demandas, a Baseten tornou-se a primeira empresa a adotar VMs A4 com GPUs NVIDIA Blackwell no Google Cloud para atender à escala e à complexidade da inferência de IA moderna.
No coração do cluster de GPUs NVIDIA Blackwell da Baseten está o NVIDIA Blackwell, a arquitetura de GPU mais poderosa da NVIDIA até o momento. Ele apresenta Núcleos Tensor de quinta geração, malha NVIDIA NVLink™ de latência ultrabaixa, precisão FP4 e FP6 e muito mais. Com 208 bilhões de transistores, mais de 2,5 vezes o número de transistores nas GPUs NVIDIA Hopper™, e baseado no processo 4NP da TSMC adaptado para a NVIDIA, o Blackwell foi projetado para impulsionar os avanços em lógica, conteúdo generativo e inteligência em tempo real.
Antes da mudança para o NVIDIA HGX™ B200, Baseten tinha que fazer compensações difíceis entre a latência do usuário e os custos de inferência ao atender grandes modelos de raciocínio como o DeepSeek-R1. A empresa também enfrentou desafios ao atender aos modelos Llama 4 Scout devido às suas janelas de contexto maiores de 10 milhões de tokens que exigiam grandes quantidades de memória da GPU. A mudança para o NVIDIA Blackwell permitiu que a Baseten atendesse esses modelos equilibrando o custo de inferência, a latência e outros compromissos, tudo isso aproveitando sua janela de contexto completa e capacidades de inteligência.
A Baseten agora é capaz de atender quatro dos modelos de código aberto mais populares (DeepSeek-V3, DeepSeek-R1, gpt-oss e Llama 4 Maverick) diretamente em suas APIs de modelo, oferecendo desempenho de custo mais de 225% melhor para inferência de alto rendimento e desempenho de custo 25% melhor para inferência sensível à latência. Além das APIs de modelo, a Baseten também fornece implantações dedicadas com tecnologia B200 para clientes que buscam executar seus próprios LLMs personalizados com a mesma confiabilidade e eficiência.
Ao combinar as inovações arquitetônicas do NVIDIA Blackwell com a arquitetura de hipercomputador de IA do Google Cloud, o Baseten se beneficia de um stack fortemente integrado de hardware otimizado para desempenho, rede de alta velocidade e modelos de consumo flexíveis para oferecer escala, disponibilidade e eficiência de custo para IA na empresa.
Google Cloud
Os benchmarks mostram uma melhoria na taxa de transferência para GPUs Blackwell em comparação com H200 nos modelos Llama e DeepSeek
Baseten
A abordagem da Baseten para alcançar o desempenho máximo dos modelos de inferência está enraizada no acoplamento do hardware computacional acelerado mais recente com o software mais avançado para extrair a máxima utilização de todos os chips. Quando chegou a hora de implantar o modelo de raciocínio OpenAI gpt-oss-120b mais recente, Baseten aproveitou o stack de inferência de código aberto da NVIDIA, incluindo o NVIDIA Dynamo e o TensorRT-LLM, para atender ao modelo na plataforma NVIDIA HGX B200. Essa escolha estratégica permitiu que Baseten alcançasse os principais rankings de desempenho em uma plataforma líder de benchmarking de endpoints LLM no dia de lançar o modelo.
No centro desse sucesso estava a integração do NVIDIA Dynamo, uma plataforma de serviços de inferência distribuída de baixa latência que oferece suporte a técnicas avançadas de otimização de inferência, como serviço desagregado, roteamento consciente de LLM e descarregamento de cache KV para o armazenamento, em sua arquitetura de serviços, além de compilar o modelo com o NVIDIA TensorRT-LLM, uma API Python fácil de usar que contém otimizações de modelos de ponta para executar inferência com eficiência nas GPUs NVIDIA.
Além do gpt-oss-120b, Baseten também usa Dynamo para atender outros modelos de raciocínio de ponta, como DeepSeek-R1 e Llama 4 em GPUs Blackwell por meio de endpoints públicos. Isso permitiu que a Baseten reduzisse significativamente a latência, aumentasse a taxa de transferência e construísse uma curva de custo-desempenho totalmente nova ao atender modelos de ponta em escala. Graças à abertura do NVIDIA Dynamo e seu suporte para diferentes backends de inferência, Baseten também foi capaz de incorporar otimizações de inferência de outros mecanismos de inferência de código aberto, como o SGLang, para executar modelos com desempenho de pico.
A Baseten usa ainda o TensorRT-LLM para otimizar e compilar LLMs personalizados, incluindo para um de seus maiores clientes de IA e de mais rápido crescimento, o Writer. Esses esforços aumentaram a taxa de transferência em mais de 60% para os LLMs da Writer's Palmyra. A flexibilidade do TensorRT-LLM também permitiu que a Baseten estendesse suas capacidades desenvolvendo um construtor de modelos personalizado que acelera a compilação de modelos.
“A escalabilidade econômica da mistura de raciocínio de modelos especializados exige técnicas de inferência inovadoras, como serviço desagregado e roteamento consciente do contexto. O Baseten oferece desempenho de inferência líder do setor ao executar DeepSeek-R1 e Llama 4 no NVIDIA Blackwell, acelerado pelo NVIDIA Dynamo, que agora está em produção. Os núcleos Blackwell Tensor de quinta geração, combinados com a largura de banda de baixa latência do NVLink e as otimizações de inferência distribuída em larga escala do NVIDIA Dynamo criam um efeito composto, permitindo-nos estabelecer novos benchmarks tanto para taxa de transferência quanto para latência.”
Pankaj Gupta,
Cofundador da Baseten
A Baseten está acelerando sua missão para oferecer a plataforma de inferência mais avançada do mundo para IA de missão crítica. Seu Stack de Inferência é o que torna todos os modelos da Baseten tão rápidos, confiáveis e econômicos. A Baseten continuará a se expandir globalmente, trazendo a infraestrutura computacional acelerada e o software de inferência mais recentes da NVIDIA para mais perto dos clientes por meio de implantações e suporte local conscientes da região.
Além disso, a Baseten continuará sua tradição de contribuir para os mecanismos e frameworks de inferência de código aberto transmitindo suas otimizações de software de inferência para os projetos de código aberto, permitindo que outras pessoas se beneficiem do trabalho da Baseten e criando um efeito virtuoso para a comunidade de IA em geral.
Implante o NVIDIA Dynamo, contribua para seu crescimento e integre-o perfeitamente ao seu stack existente.