NVIDIA 多執行個體 GPU

單一 GPU 擁有 7 個獨立執行個體

多執行個體 GPU (MIG) 能提高 NVIDIA H100A100 以及 A30 Tensor 核心 GPU 的效能和價值。多執行個體 GPU 讓每個 GPU 最多能分隔成 7 個執行個體,各自完全獨立且具備個別的高頻寬記憶體、快取和運算核心。從最小到最大,管理員可以支援任何規模的工作負載,確保服務品質 (QoS),並將加速運算資源的範圍擴展至每個使用者。

優勢概覽

讓更多人使用 GPU

有了多執行個體 GPU,就可以在單一 GPU 上獲得多達 7 倍的 GPU 資源。多執行個體 GPU 為研究人員和開發人員提供前所未有的資源和彈性。

將 GPU 利用率最佳化

多執行個體 GPU 具備彈性,讓使用者得以選擇許多不同大小的執行個體,再針對每個工作負載佈建大小合適的 GPU 執行個體,最終實現最佳利用率並將資料中心投資效益最大化。

執行同步工作負載

多執行個體 GPU 可以將推論、訓練和高效能運算 (HPC) 工作負載以決定性的延遲和輸送量在單一 GPU 上同時執行。與時間切片不同,每個工作負載會同時執行,提供高效能。

技術原理

如果沒有多執行個體 GPU,在同一 GPU 上執行的不同工作,例如不同的人工智慧推論要求,會搶奪相同的資源。消耗較大記憶體頻寬的作業會佔據其他工作的資源,導致多項工作無法達成延遲度目標。有了多執行個體 GPU,多項工作就能在不同執行個體上同時執行,且全都具備運算、記憶體和記憶體頻寬的專用資源,進而透過 QoS 和最高的 GPU 使用率,達到可預期的效能。

根據需求佈建和設定執行個體

GPU 可以分隔為不同大小的 MIG 執行個體。例如,在 NVIDIA A100 40GB 中,管理員可以建立 2 個各具有 20 GB 記憶體的執行個體,也可以建立 3 個各具有 10GB 的執行個體,或是建立 7 個各具有 5GB 的執行個體,或是混合使用。

也能以動態方式重新設定多執行個體 GPU 的執行個體,使管理員能夠根據不斷變化的使用者和業務需求轉移 GPU 資源。舉例來說,白天可以使用 7 個多執行個體 GPU 執行個體進行低輸送量推論,並在夜間重新設定為 1 個大型多執行個體 GPU 執行個體,進行深度學習訓練。

同時安全地執行工作負載

每個多執行個體 GPU 的執行個體都有一組專用的硬體資源,用於運算、記憶體和快取,可提供有保障的服務品質 (QoS) 和故障隔離。這也表示,即使有一個在執行個體上執行的應用程式發生故障,也不會對其他執行個體上執行的應用程式造成影響。

同時也代表不同的執行個體可以執行不同類型的工作負載,例如互動式模型開發、深度學習訓練、人工智慧推論或高效能運算應用程式。由於同時執行執行個體,所以工作負載也在各自獨立的狀態下,於相同的實體 GPU 上同時執行。

NVIDIA H100 中的多執行個體 GPU

H100 採用 NVIDIA Hopper™ 架構,藉由在橫跨至多七個 GPU 執行個體的虛擬化環境中,支援多租用戶和多使用者設定,進一步強化多執行個體 GPU,在硬體和虛擬機器監視器層級上,使用機密運算安全隔離每個執行個體。每個多執行個體 GPU 的執行個體專用影片解碼器,能在共用基礎架構上提供安全、高傳輸量的智慧影像分析 (IVA)。管理員可以利用 Hopper 的同步多執行個體 GPU 分析,監控適當大小的 GPU 加速,並向多個使用者分派資源。 

工作負載較低的研究人員,並不需要租用完整的雲端執行個體,可以使用多執行個體 GPU 安全隔離一部分 GPU,同時確保其資料在儲存、傳輸和使用時都能保持安全。如此一來,雲端服務供應商在定價與處理較少的客戶機會時,就能更有彈性。

觀看多執行個體 GPU 實際使用狀況

利用單一 A100 GPU 上執行多項工作負載

此技術展示會利用同一個 A100 GPU 同時執行人工智慧和高效能運算工作負載。

運用多執行個體 GPU 大幅提升效能和使用率

此技術展示將展示單一多執行個體 GPU 片段的推論效能,並在 A100 上以線性方式擴充。

專為 IT 和 DevOps 打造

多執行個體 GPU 可讓 IT 和 DevOps 團隊進行縝密的 GPU 佈建。每個多執行個體 GPU 的執行個體都像應用程式的獨立 GPU 一樣運作,因此 CUDA® 平台無需變更。多執行個體 GPU 可用於所有主要企業運算環境。

多執行個體 GPU 規格

H100 A100
機密運算 -
執行個體類型 7x 10GB
4x 20GB
2x 40GB (更高運算容量)
1x 80GB
7x 10GB
3x 20GB
2x 40GB
1x 80GB
GPU 分析和監控 在所有執行個體上同時執行 一次僅限一個執行個體
安全租用戶 7x 1x
媒體解碼器 每個執行個體專用的 NVJPEG 和 NVDEC 有限選項

初步規格可能隨時變更

深入探索 NVIDIA Hopper 架構

深入探索 NVIDIA Ampere 架構