Ecosistema de almacenamiento de IA para centros de datos

Plataforma de almacenamiento de memoria contextual NVIDIA CMX

Reestructuración del almacenamiento de inferencia para la próxima frontera de la IA.

Descripción
Productos
Ventajas
Ecosistema
Recursos
Empezar

Descripción
Productos
Ventajas
Ecosistema
Recursos
Empezar

Descripción

El almacenamiento nativo de IA acelera la inferencia de contexto largo a escala

El almacenamiento de memoria de contexto de NVIDIA® CMX™ es un nivel de contexto nativo de IA para la inferencia de IA de contexto largo, varios giros y de agentes. Con la tecnología del procesador de almacenamiento NVIDIA BlueField®-4, amplía la memoria de la GPU con un nivel de contexto compartido a nivel de pod optimizado para la caché de clave-valor (KV) efímera. La plataforma proporciona una ruta de gran ancho de banda que reduce la latencia, el coste y la sobrecarga energética para cargas de trabajo de inferencia a gran escala, lo que ayuda a ofrecer un mayor rendimiento y una mejor eficiencia energética en las plataformas NVIDIA Rubin.

NVIDIA BlueField-4 impulsa una nueva clase de almacenamiento nativo de IA para la próxima frontera de la IA

NVIDIA CMX amplía la capacidad de la GPU y permite el uso compartido de caché de KV de gran ancho de banda en sistemas de IA a escala de bastidor. Ofrece un mayor rendimiento y una mejor eficiencia energética para la inferencia de varios giros en contexto largo que el almacenamiento tradicional.

Leer la nota de prensa

Presentamos la plataforma de almacenamiento de memoria contextual impulsada por NVIDIA BlueField-4 para la próxima frontera de la IA

NVIDIA CMX utiliza NVIDIA BlueField‑4, DOCA™ y Spectrum‑X™ Ethernet para añadir un nivel de memoria contextual a nivel de cápsula que ofrece un mayor rendimiento y eficiencia energética para la inferencia de IA de agentes en contexto largo.

Leer el blog

Productos

Infraestructura de almacenamiento nativa de IA, integrada de extremo a extremo

Desde memoria de contexto acelerada y movimiento de datos seguro hasta tejidos de Ethernet y marcos de inferencia, NVIDIA CMX es el resultado de un diseño conjunto extremo en computación, redes, almacenamiento y software.

NVIDIA BlueField-4

La plataforma NVIDIA BlueField acelera NVIDIA CMX al ofrecer un rendimiento, una eficiencia e innovación sin precedentes. BlueField-4 gestiona unidades de estado sólido (SSD) Non-Volatile Memory Express (NVMe), ejecuta servicios de almacenamiento y descarga la integridad y el cifrado de datos para la caché de KV con alta eficiencia energética. Sus capacidades de computación avanzadas y aceleradores de hardware definidos por software para redes, almacenamiento y seguridad crean una infraestructura segura y energéticamente eficiente para cada carga de trabajo.

Transforme el centro de datos con NVIDIA BlueField

Memos de NVIDIA DOCA

NVIDIA DOCA Memos es un SDK optimizado para BlueField-4 y CMX que gestiona y comparte la caché de KV en nodos de computación de IA y de datos CMX, exponiendo API simples de valor de clave y convirtiendo el flash conectado a Ethernet en un nivel de caché de cápsula. Ofrece un acceso seguro y de baja latencia con integridad y cifrado acelerados por hardware, por lo que las aplicaciones permanecen sin estado, mientras que CMX se encarga del enrutamiento y la reutilización de la caché de KV a escala.

Acelere la inferencia de IA con DOCA Memos

Red Ethernet NVIDIA Spectrum-X

NVIDIA Spectrum-X Ethernet proporciona el tejido de acceso directo a memoria (RDMA) remoto de alto rendimiento para un acceso de baja latencia y gran ancho de banda a la caché de KV nativa de IA en todo el pod. Spectrum-X Ethernet, diseñado específicamente para la IA, utiliza control de congestión avanzado, enrutamiento adaptativo y RDMA sin pérdidas sobre Ethernet convergente (RoCE) para minimizar el jitter y la latencia de cola, lo que proporciona un rendimiento uniforme y repetible en entornos grandes y multiinquilino. Esto permite a CMX escalar con un gran rendimiento predecible, lo que maximiza el rendimiento y la capacidad de respuesta para cargas de trabajo de inferencia de agentes de varios turnos.

Escalar redes de IA con Spectrum-X Ethernet

NVIDIA Dynamo

NVIDIA Dynamo es un framework de servicio de inferencia distribuida que hace que CMX y los niveles de almacenamiento de contexto subyacentes se integren de manera transparente en todo el pod, enrutando las solicitudes hacia donde ya reside el KV cache. Al gestionar la colocación y la reutilización conscientes de KV en la capa de servicio, Dynamo aumenta el número de tokens por segundo, reduce el tiempo de primer token y permite la reutilización del contexto en todo el pod para cargas de trabajo de varios turnos y varios agentes.

Acelere la inferencia de IA con NVIDIA Dynamo

Ventajas del producto

Memoria de contexto acelerada para IA de contexto largo

NVIDIA CMX presenta un nivel de contexto dedicado que mejora el rendimiento sostenido y la eficiencia energética para cargas de trabajo de contexto largo y que requieren un uso intensivo de caché de KV, en comparación con los enfoques de almacenamiento tradicionales.

Recupere potencia para la IA a gran escala

Escale los servicios de IA con un nivel de almacenamiento altamente eficiente y optimizado para caché de KV que recupera la energía esencial, lo que libera una mayor parte del presupuesto de energía del centro de datos para las GPU en lugar del almacenamiento tradicional.

Maximice la utilización, el rendimiento y la capacidad de respuesta de la GPU

Optimice las rutas de datos y reduzca los estancamientos reutilizando la caché de KV precomputada del nivel CMX en lugar de volver a computarla. Esto aumenta los tokens por segundo y el rendimiento para la inferencia de agentes de varios giros. CMX reduce el tiempo hasta el primer token y el tiempo hasta el último token, por lo que las respuestas se transmiten antes y terminan más rápido, incluso a medida que crecen los modelos, las ventanas de contexto y la concurrencia.

Habilite el uso compartido de caché de KV inteligente y eficiente en todo el pod de IA

Proporcione acceso de alta velocidad y en todo el pod al contexto nativo de IA para permitir que los agentes de varios turnos se coordinen, compartan estado y escalen sin problemas a medida que crecen las cargas de trabajo, al tiempo que reducen la duplicación de la caché de KV y la capacidad infrautilizada en todos los nodos.

Ampliar la capacidad de la GPU para la inferencia de contexto largo

Ofrezca una capacidad masiva de caché de KV para admitir razonamiento de contexto largo, flujos de trabajo multiagente, modelos de billones de parámetros y ventanas de contexto más largas para muchos usuarios simultáneos.

NVIDIA STX

NVIDIA STX es una arquitectura de referencia modular para el almacenamiento de IA, diseñada conjuntamente con los principales socios de almacenamiento y basada en el software de computación acelerada, redes y de IA de NVIDIA. NVIDIA STX proporciona la base para construir un motor de datos universal que acelere el ciclo de vida completo de la IA, desde el entrenamiento y el análisis hasta la inferencia de agentes en tiempo real.

Más información sobre NVIDIA STX

Ecosistema

Socios de almacenamiento de memoria contextual de NVIDIA CMX

Recursos

Bloques de construcción para la era del contexto

Se lanza la plataforma de almacenamiento NVIDIA BlueField-4 STX con una amplia adopción en el sector

NVIDIA STX es un diseño de referencia de almacenamiento de IA modular desarrollado conjuntamente con los principales proveedores y basado en el software de computación acelerada, redes y de IA de NVIDIA. Descubra cómo impulsa la plataforma de almacenamiento NVIDIA BlueField‑4 STX, que optimiza la IA de agentes y la infraestructura de datos de IA.

Leer la nota de prensa

Presentamos la plataforma de almacenamiento de memoria contextual impulsada por NVIDIA BlueField-4

Una nueva clase de infraestructura de almacenamiento nativa de IA utiliza BlueField para eliminar los bloqueos de la GPU de inferencia, mejorar la eficiencia energética y permitir el uso compartido de KV de alta velocidad, para que la infraestructura de inferencia pueda escalar.

Leer el blog

Descripción general de la solución de la plataforma de almacenamiento de memoria contextual NVIDIA CMX

NVIDIA CMX proporciona una ruta optimizada y de gran ancho de banda que reduce la latencia, el coste y la sobrecarga energética en comparación con los enfoques de almacenamiento de propósito general, lo que ayuda a ofrecer un rendimiento hasta 5 veces superior y una eficiencia energética hasta 5 veces mejor.

Leer el resumen de la solución

Empezar

Colabore con expertos de NVIDIA

Póngase en contacto con el equipo de ventas empresariales de NVIDIA o con el socio adecuado del programa NVIDIA Partner Network (NPN) para empezar.

Contactar con un comercial Buscar un socio

¿Necesita ayuda para seleccionar el partner o producto adecuado?

Hable con un especialista de NVIDIA sobre las necesidades de su negocio.

Contactar

Manténgase al día sobre las noticias de NVIDIA

Regístrese para recibir las últimas noticias, actualizaciones y mucho más de NVIDIA.

Manténgase al corriente