Descripción General
La inferencia de IA, cómo experimentamos la IA a través de chatbots, copilotos y herramientas creativas, está escalando a un ritmo exponencial doble. La adopción de los usuarios se está acelerando, mientras los tokens de IA generados por interacción, impulsados por workflows basados en agentes, razonamiento de largo alcance y modelos de combinación de expertos (MoE) aumentan en paralelo.
Para permitir la inferencia a esta escala masiva, NVIDIA ofrece una arquitectura a escala de centro de datos con ritmo anual. Nuestro diseño conjunto extremo de hardware y software ofrece saltos de orden de magnitud en el desempeño y reduce el costo por token, lo que hace que las experiencias de IA avanzadas sean económicamente viables a escala.
NVIDIA GB300 NVL72 ofrece 50 veces más tokens por vatio y 35 veces menos costos en tokens en comparación con Hopper™, lo que maximiza los ingresos dentro del mismo presupuesto de energía e impulsa márgenes de ganancia más altos. Las optimizaciones continuas de software extraen el máximo desempeño a escala de chip, bastidor y centro de datos, lo que mejora aún más el retorno de la inversión a lo largo del tiempo.
Beneficios
Con un diseño conjunto extremo de hardware y software, NVIDIA GB300 NVL72 ofrece 50 veces más tokens por vatio que Hopper, lo que maximiza los ingresos de las fábricas de IA dentro del mismo presupuesto energético. Las optimizaciones continuas de software extraen el máximo desempeño a escala de chip, bastidor y centro de datos, lo que mejora aún más el retorno de la inversión a lo largo del tiempo.
El sistema NVIDIA GB300 NVL72 ofrece un costo por token 35 veces menor que la plataforma NVIDIA Hopper, lo que impulsa márgenes de ganancia más altos para las fábricas de IA. Con cada generación, las mejoras en el desempeño superan con creces los costos de infraestructura, lo que crea una mejor economía para permitir experiencias de IA avanzadas a escala masiva.
NVIDIA admite todos los modelos de IA generativa, ML tradicional, computación científica, biología e IA física. Desde las aplicaciones en tiempo real sensibles a la latencia hasta el procesamiento por lotes de alto rendimiento, NVIDIA ofrece el mejor desempeño para cada caso de uso. La plataforma proporciona la máxima flexibilidad y capacidad de programación para elegir la configuración óptima para la carga de trabajo y los requisitos empresariales en evolución.
El software de NVIDIA listo para la producción, como Dynamo y TensorRT™ LLM, y la integración nativa con frameworks líderes como PyTorch, vLLM, SGLang y llm-d, ofrecen la pila de inferencia de IA más sólida. A medida que las arquitecturas de modelos y las técnicas de inferencia evolucionan rápidamente, la pila de NVIDIA garantiza la ruta más rápida desde la innovación hasta la producción.
Plataforma
Un hardware poderoso sin orquestación inteligente desperdicia su potencial; un gran software sin hardware rápido implica un desempeño de inferencia lento. La plataforma de inferencia de NVIDIA ofrece una solución de pila completa optimizada de forma continua con computación, redes, almacenamiento y software codiseñados para permitir el más alto desempeño en diversas cargas de trabajo.
Explore algunas de las innovaciones clave de hardware y software de NVIDIA.
Historias de Clientes
Recursos
Próximos Pasos