Servicios de Nube

Baseten Establece un Nuevo Estándar para la Escalabilidad de la Nube con un Desempeño de Inferencia de IA Innovador

 Grip, Moët Hennessy

Objetivo

La misión de Baseten es impulsar las aplicaciones impulsadas por IA del mundo. A medida que los modelos de IA han crecido en tamaño y complejidad, especialmente con el aumento de las capacidades de razonamiento de IA, Baseten adoptó la última arquitectura de GPU para data centers de NVIDIA, NVIDIA Blackwell en Google Cloud, junto con el framework de inferencia NVIDIA Dynamo y NVIDIA TensorRT™-LLM, para ayudar a sus clientes a escalar rápidamente y satisfacer la creciente demanda de IA.

Cliente

Baseten

Socio

Google Cloud

Caso de Uso

Inferencia personalizada

Productos

NVIDIA Dynamo
Nube/Data Center NVIDIA
NVIDIA Tensor - LLM

Beneficios Clave:

5 Veces Mayor Rendimiento para Endpoints de Alto Tráfico

  • Baseten ahora puede atender cinco veces más solicitudes de usuarios de modelos personalizados con la misma cantidad de GPU.

Duplicación de la Relación Precio-Desempeño al Servir a Modelos Avanzados de Razonamiento

  • Basten incrementó la relación precio-desempeño al servir a los modelos DeepSeek R1 y Llama 4 hasta en un 225%, reduciendo los costos para la inteligencia de manufactura.

Servicio de LLM Hasta Un 38% Más Rápido para Mejorar la Experiencia del Usuario y la Adopción.

  • Baseten redujo la latencia para servir a los LLM más grandes como DeepSeek-R1 en hasta un 38%. Una menor latencia significa inteligencia más rápida y una mejor experiencia del usuario, lo que fomenta la adopción de aplicaciones basadas en IA.

Cómo Orquestar Una Infraestructura Global de GPU para IA Escalable y de Alto Rendimiento.

Orquestación de una Infraestructura Global de GPU

Dado que el tamaño de los modelos de IA aumenta rápidamente y que nuevas tareas de razonamiento requieren tiempos de inferencia de IA más largos debido a la generación de tokens "de pensamiento", la demanda de un desempeño computacional más rentable y de servicios de inferencia de múltiples nodos nunca ha sido mayor. Para enfrentar este desafío, Baseten recurrió a las GPU NVIDIA Blackwell, lo que habilita una nueva ola de desempeño y eficiencia.

Baseten, fundada en 2019, reúne GPU de más de 10 proveedores de nube en docenas de regiones globales, lo que crea un grupo de GPU unificado y escalable que admite las cargas de trabajo de IA exigentes de algunas de las empresas de IA de más rápido crecimiento del mundo. 

Para que esto sea posible, Baseten desarrolló una capa de orquestación de software sofisticada que abstrae las complejidades de la administración de infraestructura y las variaciones de latencia que surgen de la diversidad geográfica de las instancias de GPU en la nube. Este sistema, habilitado por la plataforma NVIDIA CUDA, una poderosa arquitectura de computación paralela que proporciona la base de software para que las GPU ejecuten de manera eficiente cargas de trabajo de IA, rompe los silos entre los clústeres de GPU de diferentes proveedores y regiones, convirtiéndolos en un solo grupo de GPU unificado. Los nodos de GPU, sin importar dónde residan, se vuelven completamente fungibles y fluidos para sus usuarios finales.

Como resultado, Baseten desarrolló la administración de la capacidad de múltiples nubes (MCM), con la capacidad de aprovisionar miles de GPU en menos de cinco minutos, al aprovechar su conjunto global de recursos computacionales de diferentes proveedores de servicios de nube.

Baseten

Baseten Adopta NVIDIA Blackwell para Ofrecer Inferencia Escalable en Tiempo Real para Grandes Modelos de Razonamiento

El Salto de Baseten en Desempeño y Eficiencia

Ofrecer inferencia en tiempo real de nivel de producción para grandes modelos de lenguaje de vanguardia que exigen exponencialmente más memoria, computación y compatibilidad con ventanas contextuales masivas requiere un nuevo enfoque: uno que pueda administrar de manera eficiente los procesos de computación en "tiempo de pensamiento" y los intrincados procesos de razonamiento inherentes a las cargas de trabajo de IA más sofisticadas de la actualidad, todo ello manteniendo un nivel de velocidad, escalabilidad y rentabilidad sin concesiones. Reconociendo estas demandas, Baseten se convirtió en la primera empresa en adoptar VM A4 con GPU NVIDIA Blackwell en Google Cloud para satisfacer la escala y la complejidad de la inferencia de IA moderna en la nube.

En el corazón del clúster de GPU NVIDIA Blackwell de Baseten está NVIDIA Blackwell, la arquitectura de GPU más poderosa de NVIDIA hasta el momento. Cuenta con Núcleos Tensor de quinta generación, tejido NVIDIA NVLink™ de latencia ultrabaja, precisión FP4 y FP6 y más. Con 208 mil millones de transistores, más de 2.5 veces la cantidad de transistores que las GPU NVIDIA Hopper™, y sobre la base del proceso 4NP de TSMC adaptado para NVIDIA, Blackwell está diseñada para impulsar avances en razonamiento, contenido generativo e inteligencia en tiempo real.

Antes de pasar a NVIDIA HGX™ B200, Baseten tuvo que buscar un equilibrio entre la latencia del usuario y los costos de inferencia al servir a grandes modelos de razonamiento como DeepSeek-R1. La compañía también enfrentó desafíos al servir a los modelos Llama 4 Scout debido a sus ventanas contextuales, que superan los 10 millones de tokens, y requieren cantidades enormes de memoria de GPU. El cambio a NVIDIA Blackwell le permitió a Baseten servir a estos modelos mientras equilibraba el costo de la inferencia, la latencia y otras compensaciones, todo mientras aprovechaba sus ventanas contextuales completas y sus capacidades de inteligencia.

Baseten ahora puede servir a cuatro de los modelos de código abierto más populares (DeepSeek-V3, DeepSeek-R1, gpt-oss y Llama 4 Maverick), directamente en sus API de modelos, lo que ofrece un desempeño de costos más de un 225% mejor para la inferencia de alto rendimiento, y un desempeño de costos más de un 25% mejor para la inferencia sensible a la latencia. Además de las API de modelos, Baseten también proporciona implementaciones dedicadas impulsadas por B200 para clientes que buscan ejecutar sus propios LLM personalizados con la misma confiabilidad y eficiencia.

Al combinar las innovaciones arquitectónicas de NVIDIA Blackwell con la arquitectura de hipercomputación de IA de Google Cloud, Baseten se beneficia de una pila estrechamente integrada de hardware optimizado para el desempeño, redes de alta velocidad y modelos de consumo flexibles para ofrecer la escala, la disponibilidad y la rentabilidad de la IA en la empresa.

Google Cloud 

Los análisis de referencia muestran mejoras en el rendimiento para las GPU Blackwell en comparación con las GPU H200 en los modelos Llama y DeepSeek.

Baseten

NVIDIA Blackwell

  • Núcleos Tensor de Quinta Generación

  • Interconexión NVLink de ultra baja latencia

  • Formatos de precisión FP4 y FP6

  • 208 mil millones de transistores

  • Diseñado con el proceso 4NP de TSMC adaptado para NVIDIA

  • La GPU más grande jamás desarrollada

NVIDIA Dynamo

  • Servicio de inferencia distribuido

  • Enrutamiento de solicitudes que distinguen LLM

  • Asistencia para motores de inferencia de código abierto

NVIDIA TensorRT-LLM

  • API de Python fácil de usar

  • Optimizaciones de vanguardia

  • Backend PyTorch

Acoplamiento de NVIDIA HGX B200 con Frameworks de Inferencia de Código Abierto

El enfoque de Baseten para lograr el máximo desempeño de los modelos de inferencia se basa en acoplar el último hardware de computación acelerada con el software más avanzado para extraer la máxima utilización de todos los chips. Cuando llegó el momento de implementar el último modelo de razonamiento de OpenAI gpt-oss-120b, Baseten aprovechó la pila de inferencia de código abierto de NVIDIA, que incluye NVIDIA Dynamo y TensorRT-LLM, para implementar el modelo en la plataforma NVIDIA HGX B200. Esta elección estratégica le permitió a Baseten lograr clasificaciones de alto desempeño en una plataforma pública líder de evaluación de puntos de endpoint de LLM el día del lanzamiento del modelo.

En el núcleo de este éxito estuvo la integración de NVIDIA Dynamo de Basten, una plataforma de servicio de inferencia distribuida de baja latencia que admite técnicas avanzadas de optimización de inferencia como el servicio desagregado, el enrutamiento con detección de LLM y la descarga de caché KV al almacenamiento en su arquitectura de servicio, junto con la compilación del modelo con NVIDIA TensorRT-LLM, una API de Python fácil de usar que contiene optimizaciones de modelos de vanguardia para realizar inferencia de manera eficiente en las GPU de NVIDIA. 

Más allá de gpt-oss-120b, Baseten también usa Dynamo para servir a otros modelos de razonamiento de vanguardia como DeepSeek-R1 y Llama 4 en GPU Blackwell a través de endpoints públicos. Esto le permitió a Baseten reducir significativamente la latencia, aumentar el rendimiento y construir una curva de costo-desempeño completamente nueva al servir modelos de vanguardia a escala. Gracias a la apertura de NVIDIA Dynamo y su compatibilidad con diferentes backends de inferencia, Baseten también pudo incorporar optimizaciones de inferencia de otros motores de inferencia de código abierto, como SGLang, para ejecutar modelos con el máximo desempeño. 

Baseten utiliza además TensorRT-LLM para optimizar y compilar LLM personalizados, incluso para uno de sus clientes de IA más grandes y de más rápido crecimiento, Writer. Estos esfuerzos han aumentado el rendimiento en más de un 60 % para los LLM Palmyra de Writer. La flexibilidad de TensorRT-LLM también le permitió a Baseten extender sus capacidades al desarrollar un generador de modelos personalizado que acelera la compilación de modelos.

“El escalado rentable de la combinación de razonamiento de modelos expertos exige técnicas de inferencia innovadoras, como el servicio desagregado y el enrutamiento sensible al contexto. Baseten ofrece un desempeño de inferencia líder en la industria cuando se ejecuta DeepSeek-R1 y Llama 4 en NVIDIA Blackwell, acelerado por NVIDIA Dynamo, que ahora está en producción. Los núcleos Tensor Blackwell de quinta generación, combinados con el ancho de banda de NVLink de baja latencia y las optimizaciones de inferencia distribuida a gran escala de NVIDIA Dynamo, crean un efecto acumulativo que nos permite establecer nuevos puntos de referencia tanto para el rendimiento como para la latencia”.

Pankaj Gupta,
Cofundador de Baseten

 

El Camino Hacia el Futuro para la Escalabilidad de la Nube

Baseten está acelerando su misión de ofrecer la plataforma de inferencia más avanzada del mundo para IA crítica para misión. Su Pila de Inferencia es lo que hace que todos los modelos de Baseten sean tan rápidos, confiables y rentables. Baseten continuará expandiéndose a nivel mundial, acercando a los clientes lo último en infraestructura de computación acelerada y software de inferencia de NVIDIA a través de implementaciones específicas de cada región y asistencia local. 

Además, Baseten continuará con su tradición de contribuir con los motores y marcos de inferencia de código abierto mediante la incorporación de sus optimizaciones de software de inferencia en los proyectos de código abierto, lo que permitirá a otros beneficiarse del trabajo de Baseten y creará un efecto virtuoso para la comunidad de IA en general.

Implemente NVIDIA Dynamo, contribuya a su crecimiento e intégrelo sin problemas en su pila existente.

Historias de Clientes Relacionadas