Cada instancia de MIG tiene un conjunto dedicado de recursos de hardware para la computación, la memoria y la memoria caché, lo que ofrece calidad de servicio (QoS) garantizada y aislamiento de errores para la carga de trabajo. Esto significa que el error en una aplicación que se ejecuta en una instancia no afecta a las aplicaciones que se ejecutan en otras instancias. Además, las diferentes instancias pueden ejecutar diferentes tipos de cargas de trabajo: desarrollo de modelos interactivos, entrenamiento de deep learning, inferencia de IA o aplicaciones de HPC. Dado que las instancias se ejecutan en paralelo, las cargas de trabajo también se ejecutan en paralelo (pero separadas y aisladas) en la misma GPU A100 física.
MIG es ideal para cargas de trabajo, como el desarrollo de modelos de IA y la inferencia de baja latencia. Estas cargas de trabajo pueden aprovechar al máximo las funciones de A100 y caber en la memoria asignada de cada instancia.