Mehr-Instanzen-Grafikprozessor von NVIDIA

Sieben unabhängige Instanzen in einem einzelnen Grafikprozessor

Eine Multi-Instance-GPU (MIG) erweitert die Leistung und den Wert von NVIDIA H100-, A100- und A30-Tensor-Core-GPUs. MIG kann den Grafikprozessor in bis zu sieben Instanzen aufteilen, die vollständig isoliert ausgeführt werden und über eigene Speicher-, Cache- und Recheneinheiten mit hoher Bandbreite verfügen. So können Administratoren jeden Workload unterstützen, egal wie groß oder klein, mit garantierter Servicequalität (QoS). Die Verfügbarkeit beschleunigter Computing-Ressourcen auf alle Nutzer wird dadurch erweitert.

Vorteile Übersicht

Grafikprozessorzugriff auf mehr Nutzer erweitern

Grafikprozessorzugriff erweitern

Mit MIG können Sie bis zu 7-mal mehr GPU-Ressourcen auf einem einzelnen Grafikprozessor nutzen. MIG bietet Forschern und Entwicklern mehr Ressourcen und Flexibilität als je zuvor.

GPU-Auslastung optimieren

GPU-Auslastung optimieren

MIG bietet die Flexibilität, zwischen vielen verschiedenen Instanzgrößen auszuwählen, wodurch für jeden Workload ein Grafikprozessor der richtigen Größe bereitgestellt werden kann, um die Auslastung zu optimieren und die Rentabilität des Rechenzentrums zu erhöhen.

Gemischte Workloads gleichzeitig ausführen

Workloads gleichzeitig ausführen

MIG ermöglicht die gleichzeitige Ausführung von Inferenz-, Trainings-und HPC-Workloads (High-Performance-Computing) auf einem einzelnen Grafikprozessor mit deterministischer Latenz und deterministischem Durchsatz. Im Gegensatz zum Time-Slicing läuft jeder Workload parallel und bietet hohe Leistung.

Funktionsweise der Technologie

Ohne MIG konkurrieren verschiedene Aufgaben, die auf demselben Grafikprozessor ausgeführt werden, wie unterschiedliche KI-Inferenzanforderungen, um dieselben Ressourcen. Durch eine Aufgabe, die mehr Speicherbandbreite beansprucht, steht für andere Aufgaben weniger zur Verfügung, sodass mehrere Aufgaben ihre Latenzzielwerte verfehlen. Mit MIG werden Aufgaben gleichzeitig in verschiedenen Instanzen ausgeführt, jeweils mit dedizierten Ressourcen für Rechenleistung, Arbeitsspeicher und Speicherbandbreite, was zu einer vorhersehbaren Leistung mit hoher QoS und maximaler GPU-Auslastung führt.

Mehr-Instanzen-GPU

Bereitstellung und Konfiguration von Instanzen nach Bedarf

Ein Grafikprozessor kann in verschiedene MIG-Instanzen aufgeteilt werden. Ein Administrator könnte beispielsweise mit einem NVIDIA A100 40 GB zwei Instanzen mit je 20 GB Speicher oder drei Instanzen mit je 10 GB oder sieben Instanzen mit je 5 GB erstellen. Oder eine Mischung daraus.

MIG-Instanzen können auch dynamisch neu konfiguriert werden, sodass Administratoren die GPU-Ressourcen an wechselnde Nutzer- und Geschäftsanforderungen anpassen können. Sieben MIG-Instanzen können z. B. tagsüber zur Inferenz mit geringem Durchsatz verwendet werden und für das Deep-Learning-Training in der Nacht zu einer großen MIG-Instanz umkonfiguriert werden.

Sichere parallele Ausführung von Workloads

Mit einem dedizierten Satz von Hardwareressourcen für Rechenleistung, Speicher und Cache bietet jede MIG-Instanz garantierte QoS- und Fehlerisolierung. Das bedeutet, dass Fehler in einer Anwendung, die auf einer Instanz ausgeführt wird, sich nicht auf Anwendungen auf anderen Instanzen auswirken.

Unterschiedliche Instanzen können auch verschiedene Arten von Workloads ausführen: interaktive Modellentwicklung, Deep-Learning-Training, KI-Inferenz oder HPC-Anwendungen. Da die Instanzen parallel ausgeführt werden, laufen die Workloads ebenfalls parallel – jedoch getrennt und isoliert – auf demselben physischen Grafikprozessor.

MIG in NVIDIA H100

Der auf der NVIDIA Hopper™-Architektur basierende H100 erweitert MIG durch die Unterstützung von mandantenfähigen Multi-User-Konfigurationen in virtualisierten Umgebungen für bis zu sieben Grafikprozessorinstanzen, wobei jede Instanz durch Confidential Computing sicher auf Hardware- und Hypervisorebene isoliert ist. Dedizierte Videodecoder für jede MIG-Instanz erlauben intelligente Videoanalysen (IVA) mit hohem Durchsatz auf gemeinsam genutzter Infrastruktur. Mit dem gleichzeitigen MIG-Profiling von Hopper können Administratoren die korrekt dimensionierte Grafikprozessorbeschleunigung überwachen und Ressourcen für mehrere Benutzer zuweisen. 

Forscher mit kleineren Workloads können MIG anstelle einer vollständigen Cloud-Instanz verwenden, um einen Teil eines Grafikprozessors sicher zu isolieren, und sich dabei darauf verlassen, dass ihre Daten bei Lagerung, Übertragung und Nutzung geschützt sind. Dadurch wird die Flexibilität für Cloud-Service-Anbieter erhöht, kleinere Kundenpotenziale zu bedienen und preiswerter zu sein.

MIG in Aktion

NVIDIA A100 Tensor-Core-GPU

Mehrere Workloads auf einer einzigen A100 GPU ausführen

Bei dieser Demo laufen KI- und High-Performance-Computing-Workloads (HPC) gleichzeitig auf der selben A100-GPU.

Mehr-Instanzen-Grafikprozessor auf der NVIDIA A100 Tensor Core-GPU

Leistung und Auslastung durch Mehr-Instanzen-Grafikprozessor verbessern

Diese Demo zeigt die Inferenzleistung einer einzelnen MIG-Instanz und skaliert anschließend linear über die gesamte A100.

Speziell für IT und DevOps entwickelt

MIG ermöglicht die gezielte und effiziente Bereitstellung von Grafikprozessorleistung durch IT- und DevOps-Teams. Jede MIG-Instanz verhält sich gegenüber Anwendungen wie ein eigenständiger Grafikprozessor, sodass es nicht zu Änderungen an der CUDA®-Plattform kommt. MIG kann in allen bedeutenden Computing-Umgebungen von Unternehmen verwendet werden.

Ultimative Flexibilität im Rechenzentrum

Ein NVIDIA A100-Grafikprozessor kann in verschiedene MIG-Instanzen aufgeteilt werden. Ein Administrator könnte beispielsweise zwei Instanzen mit je 20 GB Speicher oder drei Instanzen mit 10 GB oder sieben Instanzen mit 5 GB erstellen. Oder eine beliebige Kombination davon. Auf diese Weise können Systemadministratoren für unterschiedliche Arten von Workloads Grafikprozessoren mit der richtigen Größe bereitstellen.

MIG-Instanzen können auch dynamisch neu konfiguriert werden, sodass Administratoren die GPU-Ressourcen an wechselnde Nutzer- und Geschäftsanforderungen anpassen können. Sieben MIG-Instanzen können z. B. tagsüber zur Inferenz mit geringem Durchsatz verwendet werden und für das Deep-Learning-Training in der Nacht zu einer großen MIG-Instanz umkonfiguriert werden.

Außergewöhnliche Servicequalität bieten

Jede MIG-Instanz verfügt über einen dedizierten Satz an Hardwareressourcen für Rechenleistung, Speicher und Cache, wodurch garantierte Servicequalität und Fehlerisolierung für Workloads sichergestellt werden. Das bedeutet, dass Fehler in einer Anwendung, die auf einer Instanz ausgeführt wird, sich nicht auf Anwendungen auf anderen Instanzen auswirken. Unterschiedliche Instanzen können verschiedene Arten von Workloads ausführen: interaktive Modellentwicklung, Deep-Learning-Training, KI-Inferenz oder HPC-Anwendungen. Da die Instanzen parallel ausgeführt werden, laufen die Workloads ebenfalls parallel – jedoch getrennt und isoliert – auf demselben physischen A100-Grafikprozessor.

MIG eignet sich hervorragend für Workloads wie KI-Modellentwicklung und Inferenz mit geringer Latenz. Diese Workloads können die Funktionen des A100 in vollem Umfang nutzen und entsprechen dem reservierten Speicher jeder Instanz.

MIG-Spezifikationen

H100 A100
Confidential computing Ja -
Instanztypen 7 x 10 GB
4 x 20 GB
2 x 40 GB (mehr Rechenkapazität)
1 x 80 GB
7 x 10 GB
3 x 20 GB
2 x 40 GB
1 x 80 GB
GPU-Profiling und -Überwachung Gleichzeitig auf allen Instanzen Nur jeweils eine Instanz
Sichere Mandanten 7x 1x
Mediendekodierer Dediziertes NVJPEG und NVDEC pro Instanz Eingeschränkte Optionen

 Vorläufige Spezifikationen, Änderungen möglich

Tiefer Einblick in die NVIDIA Hopper-Architektur

Tiefer Einblick in die NVIDIA Ampere-Architektur