Inferencia de IA

NVIDIA Dynamo

Escale y ofrezca inferencia de IA de forma rápida.

Descripción General

El Sistema Operativo de la IA

Servir eficientemente a los modelos de lenguaje de vanguardia actuales a menudo requiere recursos que exceden la capacidad de una sola GPU, o incluso de un nodo completo, lo que hace que la implementación distribuida y de múltiples nodos sea esencial para la inferencia de IA.

NVIDIA Dynamo es un framework de servicio de inferencia distribuido de código abierto diseñado para implementar modelos en entornos de múltiples nodos a escala de centro de datos. Admite motores de inferencia de código abierto (como SGLang, NVIDIA TensorRT™ LLM y vLLM) y simplifica las complejidades del servicio distribuido al desagregar las fases de inferencia en diferentes GPU, enrutar de forma inteligente las solicitudes a la GPU apropiada para evitar la computación redundante y extender la memoria de GPU a niveles de almacenamiento rentables a través del almacenamiento en caché de datos.

Los microservicios de NVIDIA NIM incluirán las capacidades de NVIDIA Dynamo, lo que proporcionará una opción de implementación rápida y fácil. NVIDIA Dynamo también será compatible y estará disponible con NVIDIA AI Enterprise.

¿En Qué Consiste la Inferencia Distribuida?

La inferencia distribuida es el proceso de ejecutar la inferencia de modelos de IA en múltiples dispositivos o nodos de computación a fin de maximizar el rendimiento haciendo cómputos en paralelo. 

Este enfoque permite el escalado eficiente de aplicaciones de IA a gran escala, como la IA generativa, al distribuir cargas de trabajo en las GPU o la infraestructura de nube. La inferencia distribuida mejora el desempeño general y la utilización de recursos al permitir a los usuarios optimizar la latencia y el rendimiento para los requisitos únicos de cada carga de trabajo

Una Mirada Más de Cerca a NVIDIA Dynamo

Framework de inferencia distribuido de baja latencia para escalar modelos de IA de razonamiento.

Evaluaciones de referencia independientes muestran que NVIDIA GB300 NVL72, combinado con NVIDIA Dynamo, mejora el rendimiento de los modelos de combinación de expertos (MoE) hasta 50 veces en comparación con los sistemas basados en NVIDIA Hopper™.

GB300 NVL72 conecta 72 GPU a través de NVIDIA NVLink™ de alta velocidad, lo que permite una comunicación de expertos de baja latencia crítica para los modelos de razonamiento de MoE. NVIDIA Dynamo mejora la eficiencia mediante la inferencia desagregada al dividir las fases de precargado y decodificación entre los nodos para lograr una optimización independiente. Juntos, GB300 NVL72 y NVIDIA Dynamo forman una pila de alto desempeño optimizada para la inferencia de MoE a gran escala.

Funciones

Explore las Funciones de NVIDIA Dynamo

Servicio Desagregado

Separa el contexto y las fases de generación de grandes modelos de lenguaje (LLM) en GPU distintas, permitiendo así la asignación y optimización de GPU independientes para aumentar las solicitudes atendidas por GPU.

Enrutador Compatible con LLM

Enruta el tráfico de inferencia de manera eficiente, lo que minimiza el costoso recálculo de solicitudes repetidas o superpuestas para preservar los recursos de computación, a la vez que garantiza una distribución de carga equilibrada en grandes flotas de GPU.

Caché de KV para Almacenamiento

Descarga instantáneamente la caché de KV de la memoria de GPU limitada a un almacenamiento escalable y rentable, como la RAM de CPU, los SSD locales o el almacenamiento de red.

Servicio de Kubernetes Optimizado por Topología (Grove)

Permite el escalado eficiente y el orden de Startup declarativo de componentes de inferencia de IA interdependientes en configuraciones de un solo nodo y múltiples nodos mediante un recurso personalizado de Kubernetes unificado.

Planificador de GPU

Supervisa la capacidad de la GPU en entornos de inferencia distribuidos y asigna dinámicamente trabajadores de GPU en todas las fases de contexto y generación  para resolver cuellos de botella y optimizar el desempeño.

Biblioteca de Comunicación de Baja Latencia (NIXL)

Acelera el movimiento de datos en la configuración de inferencia distribuida, a la vez que simplifica las complejidades de transferencia en diversos tipos de hardware, como las GPU, las CPU, las redes y el almacenamiento.

AIConfigurator

Elimina las conjeturas de los clústeres de servicio desagregados al recomendar configuraciones de precargado y decodificado óptimas y estrategias de modelos paralelos adaptadas al modelo, al presupuesto de GPU y a los SLO.

AIPerf

Compare el desempeño de los modelos de IA Generativa en cualquier solución de inferencia con métricas detalladas a través de resultados de línea de comandos e informes de desempeño detallados.

Acelere la Inferencia Distribuida

NVIDIA Dynamo es totalmente de código abierto, lo que le brinda total transparencia y flexibilidad. Implemente NVIDIA Dynamo, contribuya a su crecimiento e intégrelo sin problemas en su pila existente.

 ¡Descúbralo en GitHub y únase a la comunidad!

Beneficios

Los Beneficios de NVIDIA Dynamo

Escale Sin Problemas Desde Una GPU a Miles de GPU

Optimice y automatice la configuración de clústeres de GPU con herramientas preconstruidas y fáciles de implementar y habilite el escalado automático dinámico con métricas específicas de LLM en tiempo real, lo que evita el aprovisionamiento excesivo o insuficiente de recursos de GPU.

Aumente la Capacidad de Servicio de Inferencia a la Vez que Reduce los Costos

Aproveche optimizaciones avanzadas de servicio de inferencia de LLM, como el servicio desagregado y el autoescalado consciente de la topología para aumentar la cantidad de solicitudes de inferencia atendidas sin comprometer la experiencia del usuario.

Prepare Su Infraestructura de IA para el Futuro y Evite Costosas Migraciones

El diseño abierto y modular le permite elegir fácilmente los componentes de servicio de inferencia que se adaptan a sus necesidades únicas, lo que garantiza la compatibilidad con su pila de IA existente y evita costosos proyectos de migración.

Acelere el Tiempo para Implementar Nuevos Modelos de IA en Producción

La compatibilidad de NVIDIA Dynamo con todos los principales frameworks (como NVIDIA TensorRT-LLM, vLLM, SGLang, PyTorch y más) garantiza su capacidad para implementar rápidamente nuevos modelos de IA generativa, independientemente de su backend.

Socios del Ecosistema Dynamo

Casos de Uso

Implementación de IA con NVIDIA Dynamo

Descubra cómo puede impulsar la innovación con NVIDIA Dynamo.

Servicio para Modelos de Razonamiento

Los modelos de razonamiento generan más tokens para resolver problemas complejos, lo que aumenta los costos de inferencia. NVIDIA Dynamo optimiza estos modelos con funciones como el servicio desagregado. Este enfoque separa las fases computacionales del prellenado y la decodificación en GPU distintas, lo que permite a los equipos de inferencia de IA optimizar cada fase de forma independiente. El resultado es una mejor utilización de recursos, más consultas atendidas por GPU y menores costos de inferencia. Al combinarse con NVIDIA GB200 NVL72, NVIDIA Dynamo aumenta el desempeño de la composición hasta 15 veces.

Escalado de la IA de Kubernetes

A medida que los modelos de IA se vuelven demasiado grandes para caber en un solo nodo, brindarles servicio de manera eficiente se convierte en un desafío. La inferencia distribuida requiere dividir modelos en múltiples nodos, lo que agrega complejidad en la orquestación, el escalado y la comunicación en los entornos basados en Kubernetes. Garantizar que estos nodos funcionen como una unidad cohesiva, especialmente en cargas de trabajo dinámicas, exige una administración cuidadosa. NVIDIA Dynamo simplifica esto usando Grove, que maneja la programación, la escalabilidad y el servicio de manera fluida y eficiente para que usted pueda centrarse en implementar la IA, no en administrar su infraestructura.

Agentes de IA Escalables

Los agentes de IA generan cantidades masivas de caché de KV al trabajar con múltiples modelos (LLM, sistemas de recuperación y herramientas especializadas) en tiempo real. Esta caché de KV a menudo excede la capacidad de la memoria de GPU, lo que crea un cuello de botella para la escalabilidad y el desempeño.

Para superar las limitaciones de la memoria de GPU, el almacenamiento en caché de datos de KV en la memoria de host o el almacenamiento externo extiende la capacidad, lo que permite a los agentes de IA escalar sin restricciones. NVIDIA Dynamo simplifica esto con su KV Cache Manager y se integra con herramientas de código abierto como LMCache, lo que garantiza una administración de caché eficiente y un desempeño escalable de agentes.

Generación de Código

La generación de código a menudo requiere un refinamiento iterativo para ajustar indicaciones, aclarar requisitos o depurar salidas en función de las respuestas del modelo. Este proceso de ida y vuelta requiere recálculo de contexto con cada turno de usuario, lo que aumenta los costos de inferencia. NVIDIA Dynamo optimiza este proceso al permitir la reutilización de contexto.

El enrutador compatible con LLM de NVIDIA Dynamo administra inteligentemente la caché de KV en los clústeres de GPU de múltiples nodos. Enruta las solicitudes en función de la superposición de caché y las dirige a las GPU con el más alto potencial de reutilización. Esto minimiza la computación redundante y garantiza un desempeño equilibrado en implementaciones a gran escala.

Testimonios de Clientes

Vea lo que los Líderes de la Industria Tienen para Decir sobre NVIDIA Dynamo

Cohere

“El escalado de modelos de IA avanzados requiere programación sofisticada de múltiples GPU, coordinación sin problemas y bibliotecas de comunicación de baja latencia que transfieren contextos de razonamiento de forma fluida en la memoria y el almacenamiento. Esperamos que Dynamo nos ayude a ofrecer a nuestros clientes empresariales una experiencia de usuario de primer nivel”.

Saurabh Baji, Vicepresidente Sénior de Ingeniería de Cohere

Perplexity AI

“Al manejar cientos de millones de solicitudes cada mes, confiamos en las GPU y el software de inferencia de NVIDIA para ofrecer el desempeño, la confiabilidad y la escalabilidad que exigen nuestra empresa y los usuarios. Esperamos aprovechar Dynamo con sus capacidades de servicio distribuido mejoradas para impulsar aún más eficiencias en el servicio de inferencia y satisfacer las demandas de computación de los nuevos modelos de razonamiento de IA".

Denis Yarats, Director de Tecnología de Perplexity AI.

Together AI

“El escalado de modelos de razonamiento de manera rentable requiere nuevas técnicas avanzadas de inferencia, como el servicio desagregado y el enrutamiento consciente del contexto. Together AI proporciona un desempeño líder en la industria con nuestro motor de inferencia patentado. La apertura y modularidad de NVIDIA Dynamo nos permitirán conectar fácilmente sus componentes a nuestro motor para servir a más solicitudes y a la vez optimizar el uso de recursos, y así maximizar nuestra inversión en computación acelerada".

Ce Zhang, Director de Tecnología de Together AI.

Historias de Clientes

Cómo los Líderes de la Industria Están Mejorando la Implementación de Modelos con la Plataforma NVIDIA Dynamo

Nuevos usuarios

Nuevos Usuarios Líderes en Todas las Industrias

Recursos

Lo Último en Inferencia de NVIDIA

Acceda a las Últimas Noticias

Lea las últimas actualizaciones y anuncios sobre inferencia para el Servidor de Inferencia NVIDIA Dynamo.

Explore los Blogs Técnicos

Lea instrucciones técnicas sobre cómo comenzar a usar la inferencia.

Analice en Detalle

Acceda a consejos y mejores prácticas para implementar, ejecutar y escalar modelos de IA para inferencia de IA generativa, LLM, sistemas de recomendación, visión por computadora y más.

Impulsar el desempeño de la inferencia de LLM

Vea nuestra grabación de NVIDIA Dynamo Office Hour para aprender a optimizar el servicio de LLM con NVIDIA Dynamo. Descubra cómo cumplir con los SLA y aumentar la interactividad y el rendimiento mediante el enrutamiento compatible con LLM, el servicio desagregado y el escalado automático dinámico en modelos de código abierto y backends de inferencia.

Inferencia Distribuida de Baja Latencia para Escalar LLM

Aprenda a implementar y escalar LLM de razonamiento con NVIDIA Dynamo. Explore técnicas de servicio avanzadas como el prellenado y la decodificación desagregados, y vea cómo NVIDIA NIM permite una implementación rápida y lista para la producción de la inferencia de IA de última generación a escala.

Servicio de IA Nativa de Kubernetes

Descubra Grove, una solución nativa de Kubernetes para orquestar cargas de trabajo de inferencia de IA complejas. Grove, que forma parte de NVIDIA Dynamo o se puede implementar de forma independiente, cierra la brecha entre los frameworks de IA y Kubernetes a través de una poderosa API, lo que hace que la inferencia de IA escalable y eficiente en Kubernetes sea más fácil que nunca.

Guía de Inicio Rápido

¿Es nuevo usuario de NVIDIA Dynamo y desea implementar su modelo rápidamente? Use esta guía de inicio rápido para comenzar su proceso con NVIDIA Dynamo

Tutoriales

Comenzar a usar NVIDIA Dynamo puede generar muchas preguntas. Explore este repositorio para familiarizarse con las funciones de NVIDIA Dynamo y encontrar guías y ejemplos que pueden ayudarle a facilitar la migración.

NVIDIA Brev

Potencie la GPU de NVIDIA en segundos con NVIDIA Brev: acceso instantáneo, configuración automática e implementación flexible en las mejores plataformas de nube. Comience a desarrollar y escalar sus proyectos de IA de inmediato.

Cómo Optimizar el Servicio de IA con NVIDIA Dynamo AIConfigurator

AIConfigurator elimina las conjeturas del servicio desagregado. Recomienda las mejores configuraciones para cumplir con sus objetivos de desempeño en función de su modelo, presupuesto de GPU y SLO. En este video, aprenderá a comenzar a usar AIConfigurator.

Escalado de la inferencia con SGLang y NVIDIA Dynamo

Vea el SGLang × NVIDIA Meetup grabado para explorar el desempeño de la inferencia a escala con información de los equipos de SGLang y NVIDIA Dynamo. Obtenga información sobre los últimos avances y estrategias de integración para optimizar la inferencia de IA en sus aplicaciones.

Técnicas Avanzadas para una Inferencia de IA Eficiente

Este video analiza las tres palancas clave de la inferencia de IA (calidad, costo y velocidad) y cómo el escalado a tiempo de prueba afecta a cada una. Descubra cómo NVIDIA Dynamo le brinda un control preciso mediante técnicas avanzadas como la desagregación, la descarga de KV y el enrutamiento de KV, lo que le permite optimizar implementaciones de grandes modelos sin concesiones.

Próximos Pasos

¿Todo Listo para Comenzar?

¡Descargue en GitHub y únase a la comunidad!

Para Desarrolladores

Explore todo lo que necesita para comenzar a desarrollar con NVIDIA Dynamo, incluida la documentación, los tutoriales, los blogs técnicos más recientes, etc.

Contáctenos

Hable con un especialista en productos NVIDIA sobre el paso de la fase de pruebas a la de producción con la seguridad, la estabilidad de las API y la asistencia de NVIDIA AI Enterprise.

Lea el Comunicado de Prensa | Lea el Blog de Tecnología

Acceda a las Últimas Noticias

Lea las últimas actualizaciones y anuncios sobre inferencia para el Servidor de Inferencia Dynamo.

Explore los Blogs Técnicos

Lea instrucciones técnicas sobre cómo comenzar a usar la inferencia.

Analice en Detalle

Acceda a consejos y mejores prácticas para implementar, ejecutar y escalar modelos de IA para inferencia de IA generativa, LLM, sistemas de recomendación, visión por computadora y más.

Implementación, Optimización y Análisis Comparativo de LLM

Aprenda a servir a los LLM de manera eficiente con instrucciones paso a paso. Abordaremos cómo implementar fácilmente un LLM en múltiples backends y comparar su desempeño, y también cómo ajustar las configuraciones de implementación para lograr un desempeño óptimo.

Lleve los Casos de Uso de IA Empresarial del Desarrollo a la Producción

Descubra qué es la inferencia de IA, cómo se adapta a la estrategia de implementación de IA de su empresa, cuáles son los desafíos clave en la implementación de casos de uso de IA de nivel empresarial, por qué se necesita una solución de inferencia de IA de pila completa para abordar estos desafíos, los principales componentes de una plataforma de pila completa y cómo implementar su primera solución de inferencia de IA.

Aproveche el Poder de las Soluciones de Inferencia de IA Listas para la Nube

Explore cómo la plataforma de inferencia de IA de NVIDIA se integra sin problemas con los proveedores líderes de servicios en la nube, lo que simplifica la implementación y acelera el lanzamiento de casos de uso de IA impulsados por LLM.

Guía de Inicio Rápido

¿Es nuevo usuario de Dynamo y desea implementar su modelo rápidamente? Use esta guía de inicio rápido para comenzar su proceso con Dynamo.

Tutoriales

Comenzar a usar Dynamo puede generar muchas preguntas. Explore este repositorio para familiarizarse con las funciones de Dynamo y encontrar guías y ejemplos que pueden ayudarle a facilitar la migración.

NVIDIA LaunchPad

En los laboratorios prácticos, experimente una IA rápida y escalable con NVIDIA Dynamo. Podrá aprovechar de inmediato los beneficios de la infraestructura de computación acelerada de NVIDIA y escalar sus cargas de trabajo de IA.

Las 5 Razones Principales por las Cuales Dynamo Está Simplificando la Inferencia

El Servidor de Inferencia NVIDIA Dynamo simplifica la implementación de modelos de IA a escala en producción, lo que les permite a los equipos implementar modelos de IA entrenados desde cualquier framework, desde un almacenamiento local o una plataforma en la nube en cualquier infraestructura basada en GPU o CPU.

Implemente el Pipeline de Stable Diffusion de HuggingFace con Dynamo

Este video muestra la implementación del pipeline de Stable Diffusion disponible a través de la biblioteca de difusores de HuggingFace. Usamos el Servidor de Inferencia Dynamo para implementar y ejecutar el pipeline.

Comience a Usar el Servidor de Inferencia NVIDIA Dynamo

El Servidor de Inferencia Dynamo es una solución de inferencia de código abierto que estandariza la implementación de modelos y habilita una IA rápida y escalable en producción. Debido a sus muchas funciones, una pregunta natural es: ¿por dónde comienzo? Mire para averiguarlo.