Technologie de GPU multi-instances de NVIDIA

Sept instances indépendantes au sein d’un seul GPU

La technologie de GPU multi-instances (MIG) de NVIDIA améliore le niveau de performance et de rendement de chaque GPU NVIDIA A100 Tensor Core. MIG permet de partitionner chaque GPU A100 en sept instances distinctes, entièrement isolées et sécurisées au niveau matériel avec leur propre mémoire à bande passante élevée, un cache spécial et des cœurs de calcul dédiés. Les administrateurs peuvent désormais assurer le traitement d’une grande variété de charges de travail - peu importe leur taille - en mettant en œuvre des GPU parfaitement calibrés pour chaque tâche avec une qualité de service optimale, ce qui permet d’améliorer la densité d’utilisation et de simplifier les modalités d’accès pour tous les utilisateurs.

Avantages Présentation

Expand GPU Access to More Users

Améliorez l’accès aux ressources GPU

MIG vous permet de partitionner un seul GPU A100 en sept instances distinctes. Les chercheurs et les développeurs accèdent ainsi à davantage de ressources GPU avec une polyvalence encore jamais vue.

Optimize GPU Utilization

Optimisez l’utilisation GPU

MIG est une technologie à haut degré de polyvalence qui vous permet de mettre en œuvre différentes tailles d’instance, vous offrant ainsi une allocation plus efficace des ressources GPU pour chaque type de charge de travail. Cette innovation améliore l’utilisation GPU et maximise la rentabilité du Data Center.

Run Simultaneous Mixed Workloads

Exécutez des charges de travail mixtes en simultané

La technologie MIG permet de programmer l’exécution simultanée des procédures d’inférence, d’entraînement ou de calcul haute performance (HPC) sur un seul GPU avec une latence et un rendement déterministes. 

Fonctionnement de la technologie MIG

Sans instanciation des ressources avec MIG, des tâches exécutées sur le même GPU - comme par exemple le traitement des demandes d’inférence pour l’IA - doivent se disputer des ressources partagées telles que la bande passante mémoire. Une tâche spécifique qui mobilise une importante bande passante impacte par conséquent des tâches annexes, ce qui les rend susceptibles de manquer leurs objectifs de latence. Grâce à la technologie MIG, les charges de travail peuvent être exécutées en simultané sur différentes instances, chacune disposant de ressources dédiées pour le calcul, la mémoire et la bande passante, ce qui réduit les délais de manière drastique en améliorant la qualité de service et en maximisant l’utilisation des ressources GPU.

Multi Instance GPU

Configurez des Data Centers dotés d’une polyvalence ultime

Vous pouvez partitionner un seul GPU NVIDIA A100 en différentes instances MIG de tailles variées. Par exemple, un administrateur réseau peut désormais créer deux instances avec 20 Go de mémoire chacune, trois instances de 10 Go, sept instances de 5 Go, ou une combinaison sur mesure. Cela permet aux responsables informatiques de mettre en place des GPU parfaitement calibrés pour chaque type de charge de travail.

Les instances MIG peuvent être reconfigurées de manière dynamique, ce qui permet aux administrateurs de modifier l’allocation des ressources GPU selon les besoins évolutifs des utilisateurs et de l’entreprise. Il est ainsi possible d’utiliser sept instances MIG pendant la journée pour des tâches d’inférence à débit modéré puis - une fois les heures de bureau terminées - de les reconfigurer en une seule instance MIG pour exécuter des tâches d’entraînement basées sur le Deep Learning.

Mettez en œuvre une qualité de service exceptionnelle

Chaque instance MIG dispose d’un ensemble dédié de ressources matérielles pour le calcul informatique, la gestion de la mémoire et les différents niveaux de cache, ce qui permet d’assurer une excellente qualité de service (QoS) et une meilleure isolation des anomalies avec chaque charge de travail. Cela signifie que tout échec d’une application exécutée sur une instance donnée n’impactera pas les autres applications qui tournent sur d’autres instances. Chaque instance peut exécuter des charges de travail distinctes : développement de modèles interactifs, entraînement Deep Learning, inférences IA ou applications HPC. Comme les instances sont mises en œuvre de manière parallélisée, les charges de travail tournent elles aussi en parallèle sur le même GPU physique, en toute sécurité.

La technologie MIG est particulièrement adaptée aux charges de travail telles que le développement de modèles d’IA ou les inférences à faible latence. Ces charges de travail hétérogènes exploitent le plein potentiel des GPU A100 et sont parfaitement adaptées à la mémoire dédiée de chaque instance.

Conçu pour les services IT et les approches DevOps

Le système MIG a été spécifiquement conçu pour faciliter le travail des équipes IT et DevOps.

Chaque instance MIG tient le rôle d’un GPU indépendant pour chaque application, c’est pourquoi aucun changement de plateforme CUDA® n’est requis. Les modèles d’IA et les applications HPC conteneurisées, par exemple via des solutions comme NGC, peuvent être exécutés directement sur une instance MIG dotée d’un module d’exécution de conteneurs NVIDIA. Les instances MIG se présentent comme des types additionnels de ressources GPU pour les orchestrateurs de conteneur tels que Kubernetes, ce qui permet de programmer des charges de travail conteneurisées sur des instances de GPU spécifiques. Cette fonctionnalité sera prochainement disponible grâce à un plug-in dédié de NVIDIA pour Kubernetes.

Les entreprises peuvent ainsi tirer parti de fonctionnalités de gestion et de supervision avancées et d’avantages opérationnels majeurs grâce à un système de virtualisation de serveur basé sur des hyperviseurs, incluant des modules de migration en direct ou de mutualisation avec des instances MIG tournant sur NVIDIA Virtual Compute Server (vComputeServer).

Présentation de l’architecture NVIDIA Ampere