Ecosistema de almacenamiento de IA para centros de datos
Reestructuración del almacenamiento de inferencia para la próxima frontera de la IA.
Descripción
El almacenamiento de memoria de contexto de NVIDIA® CMX™ es un nivel de contexto nativo de IA para la inferencia de IA de contexto largo, varios giros y de agentes. Con la tecnología del procesador de almacenamiento NVIDIA BlueField®-4, amplía la memoria de la GPU con un nivel de contexto compartido a nivel de pod optimizado para la caché de clave-valor (KV) efímera. La plataforma proporciona una ruta de gran ancho de banda que reduce la latencia, el coste y la sobrecarga energética para cargas de trabajo de inferencia a gran escala, lo que ayuda a ofrecer un mayor rendimiento y una mejor eficiencia energética en las plataformas NVIDIA Rubin.
Productos
Desde memoria de contexto acelerada y movimiento de datos seguro hasta tejidos de Ethernet y marcos de inferencia, NVIDIA CMX es el resultado de un diseño conjunto extremo en computación, redes, almacenamiento y software.
Ventajas del producto
NVIDIA CMX presenta un nivel de contexto dedicado que mejora el rendimiento sostenido y la eficiencia energética para cargas de trabajo de contexto largo y que requieren un uso intensivo de caché de KV, en comparación con los enfoques de almacenamiento tradicionales.
Escale los servicios de IA con un nivel de almacenamiento altamente eficiente y optimizado para caché de KV que recupera la energía esencial, lo que libera una mayor parte del presupuesto de energía del centro de datos para las GPU en lugar del almacenamiento tradicional.
Optimice las rutas de datos y reduzca los estancamientos reutilizando la caché de KV precomputada del nivel CMX en lugar de volver a computarla. Esto aumenta los tokens por segundo y el rendimiento para la inferencia de agentes de varios giros. CMX reduce el tiempo hasta el primer token y el tiempo hasta el último token, por lo que las respuestas se transmiten antes y terminan más rápido, incluso a medida que crecen los modelos, las ventanas de contexto y la concurrencia.
Proporcione acceso de alta velocidad y en todo el pod al contexto nativo de IA para permitir que los agentes de varios turnos se coordinen, compartan estado y escalen sin problemas a medida que crecen las cargas de trabajo, al tiempo que reducen la duplicación de la caché de KV y la capacidad infrautilizada en todos los nodos.
Ofrezca una capacidad masiva de caché de KV para admitir razonamiento de contexto largo, flujos de trabajo multiagente, modelos de billones de parámetros y ventanas de contexto más largas para muchos usuarios simultáneos.
NVIDIA STX es una arquitectura de referencia modular para el almacenamiento de IA, diseñada conjuntamente con los principales socios de almacenamiento y basada en el software de computación acelerada, redes y de IA de NVIDIA. NVIDIA STX proporciona la base para construir un motor de datos universal que acelere el ciclo de vida completo de la IA, desde el entrenamiento y el análisis hasta la inferencia de agentes en tiempo real.
Ecosistema
Recursos
Póngase en contacto con el equipo de ventas empresariales de NVIDIA o con el socio adecuado del programa NVIDIA Partner Network (NPN) para empezar.
Hable con un especialista de NVIDIA sobre las necesidades de su negocio.
Regístrese para recibir las últimas noticias, actualizaciones y mucho más de NVIDIA.