Un prompt. Un conjunto de tokens para la respuesta. Esto se llama inferencia de IA. A medida que los modelos crecen en tamaño y complejidad, las organizaciones se ven enfrentadas a la necesidad de un enfoque de pila completa y herramientas integrales para tener éxito en esta nueva era de leyes de escalado en IA.
Dado que los modelos de razonamiento generan tokens de IA de manera exponencial, la demanda de computación está aumentando. Satisfacer esto requiere fábricas de IA (infraestructuras diseñadas específicamente para la inferencia a escala con NVIDIA Blackwell) diseñadas para ofrecer desempeño, eficiencia y ROI en todas las industrias.
La optimización de la inferencia de pila completa es la clave para garantizar que usted esté pensando de manera inteligente sobre el escalado de la IA a escala de fábricas de IA.
NVIDIA Blackwell hace posibles los mayores ingresos para fábricas de IA, lo que incluye un ROI hasta 15 veces más alto. Este es el resultado de un diseño colaborativo extremo que incluye NVIDIA Blackwell, NVLink™ y NVLink Switch para scale-outs; NVFP4 para especificaciones de baja precisión; y NVIDIA Dynamo y TensorRT™-LLM para mayor velocidad y flexibilidad, así como un trabajo de desarrollo con los frameworks comunitarios SGLang, vLLM y más.
Los resultados de DeepSeek-R1 8K/1K muestran un beneficio de desempeño y una oportunidad de ingresos 15 veces mayor para NVIDIA Blackwell GB200 NVL72 en comparación con Hopper H200.
NVIDIA TensorRT-LLM alcanza un rendimiento máximo de 60,000 TPS/GPU, una interactividad máxima de 1,000 TPS/usuario y una mejora de 5 veces en el desempeño en dos meses con gpt-oss-120b.
Estandarice la implementación de modelos en aplicaciones, frameworks de IA, arquitecturas de modelos y plataformas.
Integre fácilmente con herramientas y plataformas en instancias de cloud públicas, en data centers locales y en el edge.
Disfrute de un alto caudal y nivel de utilización de la infraestructura de IA, reduciendo así el costo.
Disfrute del mejor desempeño del sector con la plataforma que establece múltiples récords en MLPerf de forma constante, el punto de referencia líder del sector para la IA.
NVIDIA AI Enterprise consta de NVIDIA NIM™, Servidor de Inferencia NVIDIA Triton™, NVIDIA® TensorRT™ y otras herramientas para simplificar la creación, el intercambio y la implementación de aplicaciones de IA. Con soporte, estabilidad, capacidad de administración y seguridad de nivel empresarial, las empresas pueden acelerar el tiempo de generación de valor al tiempo que eliminan el tiempo de inactividad no planificado.
Obtenga un desempeño de IA incomparable con el software de inferencia de IA de NVIDIA, optimizado para la infraestructura acelerada por NVIDIA. Las tecnologías NVIDIA Blackwell Ultra, la GPU H200, NVIDIA RTX PRO™ 6000 Blackwell Server Edition y NVIDIA RTX™ ofrecen una velocidad y una eficiencia excepcionales para las cargas de trabajo de inferencia de IA en data centers, nubes y workstations.