NVIDIA Multi-Instance GPU

Siete instancias independientes en un solo GPU

La GPU multiinstancia (MIG) aumenta el rendimiento y el valor de cada GPU NVIDIA A100 Tensor Core. MIG puede dividir la GPU A100 en hasta siete instancias, totalmente aisladas con su propia memoria de ancho de banda alta, su caché y sus núcleos de procesamiento. Ahora los administradores pueden soportar todas las cargas de trabajo, desde las más pequeñas hasta las más grandes, ofreciendo una GPU con calidad de servicio garantizada (QoS) para cada trabajo, optimizando la utilización y extendiendo el alcance de los recursos informáticos acelerados a cada usuario.

Información general de ventajas

Expand GPU Access to More Users

Ampliar el acceso a la GPU a más usuarios

Con MIG, puedes lograr hasta 7 veces más recursos de GPU en una sola GPU A100. MIG ofrece a los investigadores y desarrolladores más recursos y flexibilidad que nunca.

Optimize GPU Utilization

Optimizar la utilización de GPU

MIG proporciona la flexibilidad de elegir muchos tamaños de instancia diferentes, lo que permite el aprovisionamiento de la GPU del tamaño correcto para cada carga de trabajo, lo que en última instancia ofrece una utilización óptima y maximiza la inversión en centros de datos.

Run Simultaneous Mixed Workloads

Ejecutar cargas de trabajo mixtas simultáneas

MIG permite que las cargas de trabajo de inferencia, entrenamiento y alta computación (HPC) se ejecuten al mismo tiempo en una sola GPU con latencia y rendimiento deterministas. 

Cómo funciona la tecnología

Sin MIG, diferentes trabajos que se ejecutan en la misma GPU, como diferentes solicitudes de inferencia de IA, compiten por los mismos recursos, como el ancho de banda de memoria. Un trabajo que consume un ancho de banda de memoria más grande priva a otros de este, lo que provoca que varios trabajos pierdan sus objetivos de latencia. Con MIG, los trabajos se ejecutan simultáneamente en diferentes instancias, cada una con recursos dedicados para el uso de proceso, memoria y ancho de banda de memoria, lo que resulta en un rendimiento predecible con calidad de servicio y máxima utilización de GPU.

Multi Instance GPU

Lograr la máxima flexibilidad del centro de datos

Una GPU NVIDIA A100 se puede dividir en particiones de instancias MIG de diferentes tamaños. Por ejemplo, un administrador podría crear dos instancias con 20 gigabytes (GB) de memoria cada una, tres instancias con 10 GB o siete instancias con 5 GB. O una combinación de las opciones anteriores. El administrador del sistema puede proporcionar GPU de tamaño correcto a los usuarios para diferentes tipos de cargas de trabajo.

Las instancias MIG también se pueden reconfigurar de forma dinámica, lo que permite a los administradores cambiar los recursos de GPU en respuesta a las cambiantes demandas de usuarios y empresas. Por ejemplo, se pueden utilizar siete instancias de MIG durante el día para la inferencia de bajo rendimiento y volver a configurarlas en una instancia MIG grande por la noche para el entrenamiento de aprendizaje profundo.

Ofrecer una calidad de servicio excepcional

Cada instancia MIG tiene un conjunto dedicado de recursos de hardware para computación, memoria y caché, lo que proporciona una calidad de servicio eficaz (QoS) y aislamiento de errores para la carga de trabajo. Esto significa que el error en una aplicación que se ejecuta en una instancia no afecta a las aplicaciones que se ejecutan en otras instancias. Además, diferentes instancias pueden ejecutar diferentes tipos de cargas de trabajo: desarrollo de modelos interactivos, entrenamiento de aprendizaje profundo, inferencia de IA o aplicaciones HPC. Dado que las instancias se ejecutan en paralelo, las cargas de trabajo también se ejecutan en paralelo, pero independientes y protegidas, en la misma GPU A100 física.

MIG es ideal para cargas de trabajo como el desarrollo de modelos de IA y la inferencia de baja latencia. Estas cargas de trabajo pueden aprovechar al máximo las características de A100 y encajar en la memoria asignada de cada instancia.

Diseñada para TI y DevOps

MIG se ha diseñado para facilitar la implementación a los equipos de TI y DevOps.

Cada instancia de MIG se comporta como un GPU independiente para las aplicaciones, por lo que no hay ningún cambio en la plataforma CUDA®. Los modelos de IA y aplicaciones HPC en contenedores, como de NGC, pueden ejecutarse directamente en una instancia de MIG con NVIDIA Container Runtime. Las instancias de MIG se presentan como recursos de GPU adicionales en organizadores de contenedores como Kubernetes, que pueden programar cargas de trabajo en contenedores para que se ejecuten en instancias de GPU específicas. Esta función estará disponible pronto a través del complemento de dispositivo NVIDIA para Kubernetes

Las organizaciones pueden aprovechar las ventajas de administración, supervisión y operación de la virtualización de servidores basada en hipervisores, que incluyen la migración en directo y la configuración multiinquilino, en instancias de GPU MIG con NVIDIA Virtual Compute Server (vComputeServer).

Sumérgete en la arquitectura NVIDIA Ampere