GPU multiinstancia de NVIDIA

Siete instancias independientes en una sola GPU

La GPU multiinstancia (MIG) amplía el rendimiento y el valor de las GPU NVIDIA Rubin, NVIDIA Blackwell y NVIDIA Hopper. MIG puede particionar la GPU en hasta siete instancias, cada una de ellas totalmente aislada con su propia memoria, caché y núcleos de computación de alto ancho de banda. Esto permite a los administradores admitir todas las cargas de trabajo, desde las más pequeñas hasta las más grandes, con calidad de servicio (QoS) garantizada y extendiendo el alcance de los recursos informáticos acelerados a cada usuario.

Información general de ventajas

Ampliar el acceso a la GPU

Con MIG, puedes lograr hasta 7 veces más recursos en una sola GPU. MIG ofrece a los investigadores y desarrolladores más recursos y flexibilidad que nunca.

Optimizar la utilización de GPU

MIG proporciona la flexibilidad de elegir muchos tamaños de instancia diferentes, lo que permite el aprovisionamiento de la instancia de GPU del tamaño correcto para cada carga de trabajo y, en definitiva, ofrece una utilización óptima y maximiza la inversión en centros de datos.

Ejecutar cargas de trabajo simultáneas

MIG permite que las cargas de trabajo de inferencia, entrenamiento y alta computación (HPC) se ejecuten al mismo tiempo en una sola GPU con latencia y rendimiento deterministas. A diferencia del time-slicing, cada carga de trabajo se ejecuta en paralelo, lo que ofrece un alto rendimiento.

Cómo funciona la tecnología

Sin MIG, diferentes trabajos que se ejecutan en la misma GPU, como diferentes solicitudes de inferencia de IA, compiten por los mismos recursos. Un trabajo que consume un mayor ancho de banda de memoria deja a otros trabajos sin tener en cuenta sus objetivos de latencia. de este modo, varios trabajos Con MIG, los trabajos se ejecutan simultáneamente en diferentes instancias, cada una con recursos dedicados para el uso de proceso, memoria y ancho de banda de memoria, lo que resulta en un rendimiento predecible con QoS y la máxima utilización de la GPU.

Aprovisionar y configurar instancias según sea necesario

Una GPU se puede dividir en particiones de instancias MIG de diferentes tamaños. Por ejemplo, en NVIDIA GB200, un administrador podría crear dos instancias con 93 GB de memoria cada una, cuatro instancias con 46 GB cada una o siete instancias con 23 GB cada una.

Las instancias de MIG también se pueden reconfigurar de forma dinámica, lo que permite a los administradores cambiar los recursos de GPU en respuesta a las cambiantes demandas de usuarios y empresas. Por ejemplo, se pueden utilizar siete instancias de MIG durante el día para la inferencia de bajo rendimiento y volver a configurarlas en una instancia de MIG grande por la noche para formación de deep learning.

Ejecutar cargas de trabajo en paralelo de forma segura

Con un conjunto dedicado de recursos de hardware para computación, memoria y memoria caché, cada instancia de MIG ofrece una calidad de servicio (QoS) garantizada y aislamiento de errores. Esto significa que un error en una aplicación que se ejecuta en una instancia no afecta a las aplicaciones que se ejecutan en otras instancias.

También indica que diferentes instancias pueden ejecutar diferentes tipos de cargas de trabajo: desarrollo de modelos interactivos, formación de deep learning, inferencia de IA o aplicaciones HPC Dado que las instancias se ejecutan en paralelo, las cargas de trabajo también lo hacen, pero independientes y aisladas, en la misma GPU física.

MIG en las GPU NVIDIA Blackwell y Hopper

Las GPU NVIDIA Blackwell y Hopper admiten MIG con configuraciones multiinquilino y multiusuario en entornos virtualizados en hasta siete instancias de GPU, aislando cada instancia de forma segura con computación confidencial a nivel de hardware e hipervisor. Los descodificadores de vídeo dedicados para cada instancia de MIG ofrecen un análisis inteligente de vídeo (IVA) seguro y de alto rendimiento en una infraestructura compartida. Gracias a la generación simultánea de perfiles de MIG, los administradores pueden supervisar la aceleración de GPU de un tamaño adecuado y optimizar la asignación de recursos para varios usuarios. 

Por su parte, los investigadores con cargas de trabajo más pequeñas, en vez de tener que alquilar una instancia de nube entera, pueden utilizar MIG para aislar sin riesgo alguno una parte de una GPU mientras tienen la seguridad de que sus datos están protegidos en reposo, en tránsito y en uso. Esto mejora la flexibilidad para que los proveedores de servicios en la nube puedan establecer precios que capten a clientes más pequeños.

Ver MIG en acción

Ejecución de varias cargas de trabajo en una sola GPU A100

En esta demo se ejecutan cargas de trabajo de computación de alto rendimiento (HPC) y de IA simultáneamente en la misma GPU A100.

Mejora del rendimiento y la utilización con la GPU multiinstancia

En esta demostración se muestra el rendimiento de la inferencia en un solo segmento de MIG y luego se ajusta linealmente en toda la A100.

Diseñado para TI y DevOps

MIG permite el aprovisionamiento de GPU de grano fino por parte de equipos de TI y DevOps. Cada instancia de MIG se comporta como una GPU independiente para las aplicaciones, por lo que no hay cambios en la plataforma CUDA. MIG se puede utilizar en todos los principales entornos de computación empresarial.

Implementación desde el centro de datos al perímetro

Utiliza MIG en las instalaciones, en la nube y en el perímetro.

Aprovechamiento de contenedores

Ejecuta aplicaciones de contenedor en instancias de MIG​.

Compatibilidad con Kubernetes

Programe pods de Kubernetes en instancias de MIG.

Virtualización de aplicaciones

Ejecuta aplicaciones en instancias de MIG dentro de una máquina virtual​.

Especificaciones de MIG

  GPU NVIDIA Blackwell Ultra* GPU NVIDIA Blackwell*
  NVIDIA GB300 NVL72 NVIDIA HGX B300 NVIDIA GB200 NVL72 NVIDIA HGX B200
SEGURIDAD DE LA IA
Tipos de instancias 7x 34 GB
4x 69 GB
2x 139 GB
1x 279 GB
7x 32 GB
4x 67 GB
2x 135 GB
1x 270 GB
7x 23 GB
4x 46 GB
2x 93 GB
1x 186 GB
7x 21 GB
4x 45 GB
2x 90 GB
1x 180 GB
Generación de perfiles y supervisión de GPU Simultáneamente en todos las instancias Simultáneamente en todos las instancias Simultáneamente en todos las instancias Simultáneamente en todos las instancias
Inquilinos seguros 7x 7x 7x 7x
Descodificadores de contenido NVJPEG y NVDEC dedicados por instancia NVJPEG y NVDEC dedicados por instancia NVJPEG y NVDEC dedicados por instancia NVJPEG y NVDEC dedicados por instancia

Especificaciones preliminares. Todos los valores son máximos y pueden estar sujetos a cambios.
* Los tamaños mostrados corresponden a las especificaciones de GPU de cada sistema. Para obtener más información, consulte la documentación técnica.

Más información sobre MIG.