Descripción
La inferencia de IA —la forma en la que experimentamos la IA a través de chatbots, copilotos y herramientas creativas— se está escalando a un ritmo exponencial doble. La adopción por parte de los usuarios se está acelerando mientras que los tókenes de IA generados mediante interacción, impulsados por flujos de trabajo de agentes, razonamiento de pensamiento a largo plazo y modelos de mezcla de expertos (MoE), se incrementan vertiginosamente en paralelo.
Para permitir la inferencia a esta escala masiva, NVIDIA proporciona una arquitectura a escala de centro de datos con periodicidad anual. Nuestro diseño conjunto extremo de hardware y software proporciona saltos de rendimiento de orden de magnitud y reduce el coste por token, lo que hace que las experiencias de IA avanzadas sean económicamente viables a escala.
NVIDIA GB300 NVL72 proporciona 50 veces más tokens por vatio y un coste de tokens 35 veces menor que el de Hopper™, lo que maximiza los ingresos con el mismo presupuesto de energía y genera mayores márgenes de beneficio. Las optimizaciones continuas de software sacan el máximo rendimiento a escala de chip, bastidor y centro de datos, y mejora aún más el retorno de la inversión con el tiempo.
Ventajas
Gracias a un diseño conjunto de hardware y software extremo, el sistema NVIDIA GB300 NVL72 proporciona 50 veces más tokens por vatio que Hopper, lo que maximiza los ingresos de la fábrica de IA con el mismo presupuesto energético. Las optimizaciones continuas de software sacan el máximo rendimiento a escala de chip, bastidor y centro de datos, y mejora aún más el retorno de la inversión con el tiempo.
El sistema NVIDIA GB300 NVL72 proporciona un coste por token 35 veces inferior al de la plataforma NVIDIA Hopper, lo que proporciona mayores márgenes de beneficio para las fábricas de IA. Con cada generación, las mejoras del rendimiento superan con creces los costes de infraestructura, lo que crea una mejor economía para permitir experiencias de IA avanzadas a escala masiva.
NVIDIA admite todos los modelos en IA generativa, aprendizaje automático tradicional, computación científica, biología e IA física. Desde aplicaciones en tiempo real sensibles a la latencia hasta el procesamiento por lotes de alto rendimiento, NVIDIA proporciona el mejor rendimiento para cada caso de uso. La plataforma ofrece la máxima flexibilidad y programabilidad para elegir la configuración óptima para la evolución de la carga de trabajo y los requisitos empresariales.
El software listo para la producción de NVIDIA, que incluye Dynamo y TensorRT™ LLM, y la integración nativa con los principales marcos, como PyTorch, vLLM, SGLang y llm-d, proporcionan la pila de inferencia de IA más robusta. A medida que las arquitecturas de modelos y las técnicas de inferencia evolucionan rápidamente, la pila de NVIDIA garantiza el camino más rápido desde la innovación hasta la producción.
Plataforma
Un hardware potente sin una orquestación inteligente desperdicia parte de su potencial; un software excepcional sin un hardware rápido se traduce en un rendimiento de inferencia lento. La plataforma de inferencia de NVIDIA ofrece una solución de pila completa optimizada de forma continua con computación, redes, almacenamiento y software diseñados conjuntamente para permitir el máximo rendimiento en diversas cargas de trabajo.
Explore algunas de las innovaciones clave de hardware y software de NVIDIA.
Historias de clientes
Recursos
Próximos pasos