Ecosistema de almacenamiento de IA para data centers
Rediseño del almacenamiento de inferencia para la próxima frontera de la IA.
Descripción General
El almacenamiento de memoria contextual NVIDIA® CMX™ es una capa contextual nativa de la IA para la inferencia de IA de contexto largo, de múltiples turnos y agéntica. Con la tecnología del procesador de almacenamiento NVIDIA BlueField®‑4, extiende la memoria de GPU con una capa contextual compartida a nivel de pods optimizada para la caché de valor de clave (KV) efímera. La plataforma proporciona una ruta de alto ancho de banda que reduce la latencia, el costo y la sobrecarga de energía para cargas de trabajo de inferencia a gran escala, lo que ayuda a ofrecer un mayor rendimiento y una mejor eficiencia energética en las plataformas NVIDIA Rubin.
Productos
Desde la memoria contextual acelerada y el movimiento seguro de datos hasta las estructuras Ethernet y los frameworks de inferencia, NVIDIA CMX es el resultado del diseño conjunto extremo en computación, redes, almacenamiento y software.
Beneficios de los Productos
NVIDIA CMX presenta una capa de contexto dedicada que mejora el rendimiento sostenido y la eficiencia energética para las cargas de trabajo de contexto largo que requieren mucho caché KV, en comparación con los enfoques de almacenamiento tradicionales.
Escale los servicios de IA con una capa de almacenamiento altamente eficiente y optimizada para caché de KV que recupera la energía esencial, lo que libera una mayor parte del presupuesto de energía del data center para las GPU, en lugar del almacenamiento tradicional.
Optimice las rutas de datos y reduzca los estancamientos reutilizando la caché de KV precomputada de la capa CMX en lugar de recomputarla. Esto aumenta los tokens por segundo y el rendimiento para la inferencia de agentes de múltiples turnos. CMX reduce el tiempo hasta el primer token y el tiempo hasta el último token, por lo que las respuestas se transmiten antes y terminan más rápido, incluso a medida que crecen los modelos, las ventanas contextuales y la concurrencia.
Proporcione acceso de alta velocidad y en todo el pod al contexto nativo de la IA para permitir a los agentes de múltiples turnos coordinar, compartir el estado y escalar sin problemas a medida que crecen las cargas de trabajo, reduciendo al mismo tiempo la duplicación de la caché de KV y la capacidad aislada entre los nodos.
Ofrezca una capacidad masiva de caché de KV para admitir razonamiento de contexto largo, workflows de múltiples agentes, modelos de billones de parámetros y ventanas contextuales más largas para muchos usuarios simultáneos.
NVIDIA STX es una arquitectura de referencia modular para el almacenamiento de IA diseñada conjuntamente con socios de almacenamiento líderes y basada en computación acelerada, redes y software de IA de NVIDIA. NVIDIA STX proporciona la base para desarrollar un motor de datos universal que acelera todo el ciclo de vida de la IA, desde el entrenamiento y el análisis hasta la inferencia agéntica en tiempo real.
Ecosistema
Recursos
Conéctese con el equipo de ventas empresariales de NVIDIA o con el socio adecuado en el programa de la Red de Socios de NVIDIA (NPN) para comenzar.
Hable con un especialista de NVIDIA sobre sus necesidades empresariales.
Regístrese para recibir las últimas noticias, actualizaciones y más de NVIDIA.