NVIDIA 多執行個體 GPU

單一 GPU 擁有 7 個獨立執行個體

多執行個體 GPU (MIG) 能提高 NVIDIA H100、A100 以及 A30 Tensor 核心 GPU 的效能和價值。多執行個體 GPU 讓每個 GPU 最多能分隔成 7 個執行個體，各自完全獨立且具備個別的高頻寬記憶體、快取和運算核心。從最小到最大，管理員可以支援任何規模的工作負載，確保服務品質 (QoS)，並將加速運算資源的範圍擴展至每個使用者。

優勢概覽

讓更多人使用 GPU

有了多執行個體 GPU，就可以在單一 GPU 上獲得多達 7 倍的 GPU 資源。多執行個體 GPU 為研究人員和開發人員提供前所未有的資源和彈性。

將 GPU 利用率最佳化

多執行個體 GPU 具備彈性，讓使用者得以選擇許多不同大小的執行個體，再針對每個工作負載佈建大小合適的 GPU 執行個體，最終實現最佳利用率並將資料中心投資效益最大化。

執行同步工作負載

多執行個體 GPU 可以將推論、訓練和高效能運算 (HPC) 工作負載以決定性的延遲和輸送量在單一 GPU 上同時執行。與時間切片不同，每個工作負載會同時執行，提供高效能。

技術原理

如果沒有多執行個體 GPU，在同一 GPU 上執行的不同工作，例如不同的人工智慧推論要求，會搶奪相同的資源。消耗較大記憶體頻寬的作業會佔據其他工作的資源，導致多項工作無法達成延遲度目標。有了多執行個體 GPU，多項工作就能在不同執行個體上同時執行，且全都具備運算、記憶體和記憶體頻寬的專用資源，進而透過 QoS 和最高的 GPU 使用率，達到可預期的效能。

根據需求佈建和設定執行個體

GPU 可以分隔為不同大小的 MIG 執行個體。例如，在 NVIDIA A100 40GB 中，管理員可以建立 2 個各具有 20 GB 記憶體的執行個體，也可以建立 3 個各具有 10GB 的執行個體，或是建立 7 個各具有 5GB 的執行個體，或是混合使用。

也能以動態方式重新設定多執行個體 GPU 的執行個體，使管理員能夠根據不斷變化的使用者和業務需求轉移 GPU 資源。舉例來說，白天可以使用 7 個多執行個體 GPU 執行個體進行低輸送量推論，並在夜間重新設定為 1 個大型多執行個體 GPU 執行個體，進行深度學習訓練。

同時安全地執行工作負載

每個多執行個體 GPU 的執行個體都有一組專用的硬體資源，用於運算、記憶體和快取，可提供有保障的服務品質 (QoS) 和故障隔離。這也表示，即使有一個在執行個體上執行的應用程式發生故障，也不會對其他執行個體上執行的應用程式造成影響。

同時也代表不同的執行個體可以執行不同類型的工作負載，例如互動式模型開發、深度學習訓練、人工智慧推論或高效能運算應用程式。由於同時執行執行個體，所以工作負載也在各自獨立的狀態下，於相同的實體 GPU 上同時執行。

NVIDIA H100 中的多執行個體 GPU

H100 採用 NVIDIA Hopper™ 架構，藉由在橫跨至多七個 GPU 執行個體的虛擬化環境中，支援多租用戶和多使用者設定，進一步強化多執行個體 GPU，在硬體和虛擬機器監視器層級上，使用機密運算安全隔離每個執行個體。每個多執行個體 GPU 的執行個體專用影片解碼器，能在共用基礎架構上提供安全、高傳輸量的智慧影像分析 (IVA)。管理員可以利用 Hopper 的同步多執行個體 GPU 分析，監控適當大小的 GPU 加速，並向多個使用者分派資源。

工作負載較低的研究人員，並不需要租用完整的雲端執行個體，可以使用多執行個體 GPU 安全隔離一部分 GPU，同時確保其資料在儲存、傳輸和使用時都能保持安全。如此一來，雲端服務供應商在定價與處理較少的客戶機會時，就能更有彈性。

觀看多執行個體 GPU 實際使用狀況

利用單一 A100 GPU 上執行多項工作負載

此技術展示會利用同一個 A100 GPU 同時執行人工智慧和高效能運算工作負載。

觀看影片

運用多執行個體 GPU 大幅提升效能和使用率

此技術展示將展示單一多執行個體 GPU 片段的推論效能，並在 A100 上以線性方式擴充。

觀看影片

專為 IT 和 DevOps 打造

多執行個體 GPU 可讓 IT 和 DevOps 團隊進行縝密的 GPU 佈建。每個多執行個體 GPU 的執行個體都像應用程式的獨立 GPU 一樣運作，因此 CUDA® 平台無需變更。多執行個體 GPU 可用於所有主要企業運算環境。

從資料中心部署到雲端

在本機、雲端和邊緣端使用多執行個體 GPU。

運用容器

在多執行個體 GPU 的執行個體上執行容器化應用程式。

支援 Kubernetes

在多執行個體 GPU 的執行個體上安排 Kubernetes Pod。

虛擬化應用程式

在虛擬機器內多執行個體 GPU 的執行個體上執行應用程式。

多執行個體 GPU 規格

	H100	A100
機密運算	有	-
執行個體類型	7x 10GB 4x 20GB 2x 40GB (更高運算容量) 1x 80GB	7x 10GB 3x 20GB 2x 40GB 1x 80GB
GPU 分析和監控	在所有執行個體上同時執行	一次僅限一個執行個體
安全租用戶	7x	1x
媒體解碼器	每個執行個體專用的 NVJPEG 和 NVDEC	有限選項

初步規格可能隨時變更

深入探索 NVIDIA Hopper 架構

閱讀白皮書

深入探索 NVIDIA Ampere 架構

閱讀白皮書