GPU de Múltiples Instancias de NVIDIA

Siete Instancias Independientes en Una Sola GPU

La GPU de varias instancias (MIG) expande el rendimiento y el valor de las GPU NVIDIA H100, A100 y A30 Tensor Core. La tecnología MIG puede dividir una GPU en hasta siete instancias, cada una totalmente aislada y con su propia memoria de gran ancho de banda, memoria caché y núcleos de computación. Esto les brinda a los administradores la capacidad de admitir cada carga de trabajo, desde la más pequeña hasta la más grande, con calidad de servicio (QoS) garantizada y extender el alcance de los recursos de computación acelerada a cada usuario.  

Resumen de los Beneficios

Expande el Acceso de la GPU a Más Usuarios

Expande el Acceso a la GPU

Con MIG, puedes lograr hasta 7 veces más recursos de GPU en una sola GPU. MIG les brinda a los investigadores y desarrolladores más recursos y flexibilidad que nunca antes.

Optimiza la Utilización de la GPU

Optimiza la Utilización de la GPU

MIG proporciona la flexibilidad para elegir muchos tamaños de instancias diferentes, lo que permite el aprovisionamiento de la instancia de GPU del tamaño adecuado para cada carga de trabajo. Esto optimiza la utilización y maximiza la inversión en el data center.

Ejecuta Cargas de Trabajo Mixtas Simultáneas

Ejecuta Cargas de Trabajo Simultáneas

MIG permite que las cargas de trabajo de inferencia, entrenamiento y computación de alto rendimiento (HPC) se ejecuten al mismo tiempo en una sola GPU con una tasa de transferencia y una latencia deterministas. A diferencia de la división temporal, cada carga de trabajo se ejecuta en paralelo, lo que ofrece un alto rendimiento.

Cómo Funciona la Tecnología

Sin MIG, los diferentes trabajos que se ejecutan en la misma GPU, como diferentes solicitudes de inferencia de IA, compiten por los mismos recursos. Un trabajo que consume un ancho de banda de memoria más grande impide que los otros trabajos se completen, lo que hace que no puedan cumplir con sus objetivos de latencia. Con MIG, los trabajos se ejecutan simultáneamente en diferentes instancias, cada una con recursos dedicados para la computación, la memoria y el ancho de banda de memoria, lo que da como resultado un rendimiento predecible con QoS y la máxima utilización de la GPU.

GPU de Múltiples Instancias

Aprovisiona y Configura Instancias Según Sea Necesario

Una GPU se puede dividir en instancias de MIG de diferentes tamaños. Por ejemplo, en una NVIDIA A100 de 40 GB, un administrador puede crear dos instancias con 20 gigabytes (GB) de memoria cada una, tres instancias con 10 GB cada una o siete instancias con 5 GB cada una. O una combinación. 

Las instancias de MIG también se pueden reconfigurar dinámicamente, lo que les permite a los administradores cambiar los recursos de GPU en respuesta a las cambiantes demandas comerciales y de los usuarios. Por ejemplo, siete instancias de MIG se pueden usar durante el día para la inferencia de bajo rendimiento y reconfigurarse en una instancia de MIG grande por la noche para el entrenamiento de deep learning.

Ejecuta Cargas de Trabajo en Paralelo y de Forma Segura

Con un conjunto dedicado de recursos de hardware para la computación, la memoria y la memoria caché, cada instancia de MIG ofrece QoS garantizado y aislamiento de errores. Esto significa que el error en una aplicación que se ejecuta en una instancia no afecta a las aplicaciones que se ejecutan en otras instancias.

También significa que las diferentes instancias pueden ejecutar diferentes tipos de cargas de trabajo: desarrollo de modelos interactivos, entrenamiento de deep learning, inferencia de IA o aplicaciones de HPC. Dado que las instancias se ejecutan en paralelo, las cargas de trabajo también se ejecutan en paralelo (pero separadas y aisladas) en la misma GPU física.

MIG en NVIDIA H100

Impulsada por la arquitectura NVIDIA Hopper™, H100 mejora aún más la tecnología MIG ya que admite configuraciones de clientes y usuarios múltiples en entornos virtualizados en hasta siete instancias de GPU, lo que permite aislar de forma segura cada instancia con la computación confidencial a nivel del hardware y el hipervisor. Los decodificadores de video dedicados para cada instancia de MIG ofrecen un análisis inteligente de videos (IVA) seguro y con una tasa de transferencia alta en la infraestructura compartida. Con la creación de perfiles de MIG concurrente de Hopper, los administradores pueden controlar la aceleración por GPU del tamaño adecuado y asignar recursos para los usuarios. 

Para los investigadores con cargas de trabajo más pequeñas, en lugar de alquilar una instancia de cloud completa, pueden usar MIG para aislar de forma segura una porción de una GPU y asegurarse de que sus datos estén protegidos en descanso, en tránsito y en uso. Esto mejora la flexibilidad para que los proveedores de servicios de cloud coticen y aborden oportunidades de clientes más pequeñas.

Ver MIG en Acción

GPU NVIDIA A100 Tensor Core

Ejecuta Varias Cargas de Trabajo en una sola GPU A100

Esta demostración ejecuta cargas de trabajo de IA y de computación de alto rendimiento (HPC) de forma simultánea en la misma GPU A100.

GPU de Múltiples Instancias en la GPU NVIDIA A100 Tensor Core

Aumento del Rendimiento y la Utilización con la GPU de Múltiples Instancias

Esta demostración muestra el rendimiento de la inferencia en una sola porción de MIG y, luego, se escala linealmente en toda la A100.

Diseñado para TI y DevOps

MIG permite el aprovisionamiento detallado de la GPU por parte de los equipos de TI y DevOps. Cada instancia de MIG se comporta como una GPU independiente para las aplicaciones, por lo que no hay cambio en la plataforma CUDA®. MIG se puede usar en los principales entornos de computación empresarial.

Logra la Máxima Flexibilidad para el Data Center

Una GPU NVIDIA A100 se puede dividir en instancias de MIG de diferentes tamaños. Por ejemplo, un administrador puede crear dos instancias con 20 gigabytes (GB) de memoria cada una, tres instancias con 10 GB o siete instancias con 5 GB. O una combinación de ellas. Por lo tanto, Sysadmin puede proporcionar las GPU del tamaño adecuado a los usuarios para diferentes tipos de cargas de trabajo.

Las instancias de MIG también se pueden reconfigurar dinámicamente, lo que les permite a los administradores cambiar los recursos de GPU en respuesta a las cambiantes demandas comerciales y de los usuarios. Por ejemplo, siete instancias de MIG se pueden usar durante el día para la inferencia de bajo rendimiento y reconfigurarse en una instancia de MIG grande por la noche para el entrenamiento de deep learning.

Ofrece una Calidad de Servicio Excepcional

Cada instancia de MIG tiene un conjunto dedicado de recursos de hardware para la computación, la memoria y la memoria caché, lo que ofrece calidad de servicio (QoS) garantizada y aislamiento de errores para la carga de trabajo. Esto significa que el error en una aplicación que se ejecuta en una instancia no afecta a las aplicaciones que se ejecutan en otras instancias. Además, las diferentes instancias pueden ejecutar diferentes tipos de cargas de trabajo: desarrollo de modelos interactivos, entrenamiento de deep learning, inferencia de IA o aplicaciones de HPC. Dado que las instancias se ejecutan en paralelo, las cargas de trabajo también se ejecutan en paralelo (pero separadas y aisladas) en la misma GPU A100 física.

MIG es ideal para cargas de trabajo, como el desarrollo de modelos de IA y la inferencia de baja latencia. Estas cargas de trabajo pueden aprovechar al máximo las funciones de A100 y caber en la memoria asignada de cada instancia.

Especificaciones de MIG

H100 A100
Computación confidencial -
Tipos de instancias 7 de 10 GB
4 de 20 GB
2 de 40 GB (más capacidad de procesamiento)
1 de 80 GB
7 de 10 GB
3 de 20 GB
2 de 40 GB
1 de 80 GB
Generación de perfiles y monitoreo de GPU Al mismo tiempo en todas las instancias Solo una instancia a la vez
Clientes Seguros 7 veces 1
Decodificadores de medios NVJPEG y NVDEC dedicados por instancia Opciones limitadas

 Las especificaciones preliminares pueden cambiar

Explora en Detalle la Arquitectura NVIDIA Hopper

Explora en Detalle la Arquitectura NVIDIA Ampere