NVIDIA 多執行個體 GPU

單一 GPU 擁有 7 個獨立執行個體

多執行個體 GPU (MIG) 能提高 NVIDIA H100A100 以及 A30 Tensor 核心 GPU 的效能和價值。多執行個體 GPU 讓每個 GPU 最多能分隔成 7 個執行個體,各自完全獨立且具備個別的高頻寬記憶體、快取和運算核心。從最小到最大,管理員可以支援任何規模的工作負載,確保服務品質 (QoS),並將加速運算資源的範圍擴展至每個使用者。

優勢概覽

讓更多使用者都能運用 GPU

讓更多人使用 GPU

有了多執行個體 GPU,就可以在單一 GPU 上獲得多達 7 倍的 GPU 資源。多執行個體 GPU 為研究人員和開發人員提供前所未有的資源和彈性。

將 GPU 利用率最佳化

將 GPU 利用率最佳化

多執行個體 GPU 具備彈性,讓使用者得以選擇許多不同大小的執行個體,再針對每個工作負載佈建大小合適的 GPU 執行個體,最終實現最佳利用率並將資料中心投資效益最大化。

執行同步混合工作負載

執行同步工作負載

多執行個體 GPU 可以將推論、訓練和高效能運算 (HPC) 工作負載以決定性的延遲和輸送量在單一 GPU 上同時執行。與時間切片不同,每個工作負載會同時執行,提供高效能。

技術原理

如果沒有多執行個體 GPU,在同一 GPU 上執行的不同工作,例如不同的人工智慧推論要求,會搶奪相同的資源。消耗較大記憶體頻寬的作業會佔據其他工作的資源,導致多項工作無法達成延遲度目標。有了多執行個體 GPU,多項工作就能在不同執行個體上同時執行,且全都具備運算、記憶體和記憶體頻寬的專用資源,進而透過 QoS 和最高的 GPU 使用率,達到可預期的效能。

多執行個體 GPU

根據需求佈建和設定執行個體

GPU 可以分隔為不同大小的 MIG 執行個體。例如,在 NVIDIA A100 40GB 中,管理員可以建立 2 個各具有 20 GB 記憶體的執行個體,也可以建立 3 個各具有 10GB 的執行個體,或是建立 7 個各具有 5GB 的執行個體,或是混合使用。

也能以動態方式重新設定多執行個體 GPU 的執行個體,使管理員能夠根據不斷變化的使用者和業務需求轉移 GPU 資源。舉例來說,白天可以使用 7 個多執行個體 GPU 執行個體進行低輸送量推論,並在夜間重新設定為 1 個大型多執行個體 GPU 執行個體,進行深度學習訓練。

同時安全地執行工作負載

每個多執行個體 GPU 的執行個體都有一組專用的硬體資源,用於運算、記憶體和快取,可提供有保障的服務品質 (QoS) 和故障隔離。這也表示,即使有一個在執行個體上執行的應用程式發生故障,也不會對其他執行個體上執行的應用程式造成影響。

同時也代表不同的執行個體可以執行不同類型的工作負載,例如互動式模型開發、深度學習訓練、人工智慧推論或高效能運算應用程式。由於同時執行執行個體,所以工作負載也在各自獨立的狀態下,於相同的實體 GPU 上同時執行。

NVIDIA H100 中的多執行個體 GPU

H100 採用 NVIDIA Hopper™ 架構,藉由在橫跨至多七個 GPU 執行個體的虛擬化環境中,支援多租用戶和多使用者設定,進一步強化多執行個體 GPU,在硬體和虛擬機器監視器層級上,使用機密運算安全隔離每個執行個體。每個多執行個體 GPU 的執行個體專用影片解碼器,能在共用基礎架構上提供安全、高傳輸量的智慧影像分析 (IVA)。管理員可以利用 Hopper 的同步多執行個體 GPU 分析,監控適當大小的 GPU 加速,並向多個使用者分派資源。 

工作負載較低的研究人員,並不需要租用完整的雲端執行個體,可以使用多執行個體 GPU 安全隔離一部分 GPU,同時確保其資料在儲存、傳輸和使用時都能保持安全。如此一來,雲端服務供應商在定價與處理較少的客戶機會時,就能更有彈性。

觀看多執行個體 GPU 實際使用狀況

NVIDIA A100 Tensor 核心 GPU

利用單一 A100 GPU 上執行多項工作負載

此技術展示會利用同一個 A100 GPU 同時執行人工智慧和高效能運算工作負載。

NVIDIA A100 Tensor 核心 GPU 上的多執行個體 GPU

運用多執行個體 GPU 大幅提升效能和使用率

此技術展示將展示單一多執行個體 GPU 片段的推論效能,並在 A100 上以線性方式擴充。

專為 IT 和 DevOps 打造

多執行個體 GPU 可讓 IT 和 DevOps 團隊進行縝密的 GPU 佈建。每個多執行個體 GPU 的執行個體都像應用程式的獨立 GPU 一樣運作,因此 CUDA® 平台無需變更。多執行個體 GPU 可用於所有主要企業運算環境。

實現極致的資料中心彈性

NVIDIA A100 GPU 可以分割為不同大小的多執行個體 GPU 執行個體。例如,管理員可以建立 2 個各具有 20 GB 記憶體的執行個體,也可以建立 3 個各具有 10 GB 的執行個體,或是建立 7 個各具有 5 GB 的執行個體,又或者是將幾個執行個體混合起來。因此系統管理員可針對不同類型的工作負載,為使用者提供大小合適的 GPU,

也能以動態方式重新設定多執行個體 GPU 的執行個體,使管理員能夠根據不斷變化的使用者和業務需求轉移 GPU 資源。舉例來說,白天可以使用 7 個多執行個體 GPU 執行個體進行低輸送量推論,並在夜間重新設定為 1 個大型多執行個體 GPU 執行個體,進行深度學習訓練。

提供卓越的服務品質

每個多執行個體 GPU 的執行個體都有一組專用的硬體資源,用於運算、記憶體和快取,為工作負載有保障的服務品質 (QoS) 和故障隔離。這也表示,即使有一個在執行個體上執行的應用程式發生故障,也不會對其他執行個體上執行的應用程式造成影響。不同的執行個體可以執行不同類型的工作負載,例如互動式模型開發、深度學習訓練、人工智慧推論或高效能運算應用程式。由於同時執行執行個體,所以工作負載也在各自獨立的狀態下,透過相同的實體 A100 GPU 上同時執行。

多執行個體 GPU 非常適合人工智慧模型開發和低延遲推論等工作負載。這些工作負載可以充分發揮 A100 的功能優勢,並適當運用每個執行個體分配的記憶體。

多執行個體 GPU 規格

H100 A100
機密運算 -
執行個體類型 7x 10GB
4x 20GB
2x 40GB (更高運算容量)
1x 80GB
7x 10GB
3x 20GB
2x 40GB
1x 80GB
GPU 分析和監控 在所有執行個體上同時執行 一次僅限一個執行個體
安全租用戶 7x 1x
媒體解碼器 每個執行個體專用的 NVJPEG 和 NVDEC 有限選項

 初步規格可能隨時變更

深入探索 NVIDIA Hopper 架構

深入探索 NVIDIA Ampere 架構