NVIDIA 多執行個體 GPU

形同有 7 個加速器在單一 GPU 中

多執行個體 GPU (MIG) 提高每一個 NVIDIA A100 Tensor 核心 GPU 的效能和價值。MIG 讓每個 A100 GPU 最多能分隔成七個執行個體,各自完全獨立且具備個別的高頻寬記憶體、快取和運算核心。從最小到最大,現在管理員可以支援任何規模的工作負載,提供大小適中的 GPU並為每項工作確保服務品質 (QoS),最佳化使用率並將加速運算資源的範圍擴展至每個使用者。

優勢概覽

讓更多使用者可以存取 GPU

讓更多使用者可以存取 GPU

搭載 MIG,即可在單一 A100 GPU 上獲得多達 7 倍的 GPU 資源。MIG 為研究人員和開發人員提供了前所未有的資源和彈性。

將 GPU 利用率最佳化

將 GPU 利用率最佳化

MIG 具備彈性,讓使用者得以選擇許多不同的執行個體大小,可針對每個工作負載佈建大小合適的 GPU,最終實現最佳利用率並將資料中心投資效益最大化。

執行同步混合工作負載

執行同步混合工作負載

MIG 可以將推論、訓練和高效能運算 (HPC) 工作負載以決定性的延遲和傳輸量在單一 GPU 上同時執行。 

此技術的工作原理

如果沒有 MIG,在同一 GPU 上執行的不同工作,例如不同的人工智慧推論要求,會搶奪像記憶體頻寬等相同的資源。消耗較大記憶體頻寬的作業會佔據其他工作的資源,導致多項工作無法達成延遲度目標。有了 MIG,多項工作就能在不同執行個體上同時執行,且全都具備運算、記憶體和記憶體頻寬的專用資源,進而達到可預期的效能。 具備服務品質和最大的 GPU 使用率。

 

使用多重個體 GPU 大幅提升效率和使用率

實現極致的資料中心彈性

NVIDIA A100 GPU 可以分隔為不同大小的 MIG 執行個體。例如,管理員可以建立兩個各具有 20 GB 記憶體的執行個體,也可以建立三個各具有 10 GB 的執行個體,或是建立七個各具有 5 GB 的執行個體,又或者是將幾個執行個體混合起來。 因此系統管理員可針對不同類型的工作負載,為使用者提供大小合適的 GPU,

也能以動態方式重新設定 MIG 執行個體,使管理員能夠根據不同的使用者和業務需求轉移 GPU 資源。舉例來說,白天可以使用七個 MIG 執行個體進行低輸送量推論,並在夜間重新設定為一個大型 MIG 執行個體,進行深度學習訓練。

提供卓越的服務品質

每個 MIG 執行個體都有一組專用的硬體資源,用於運算、記憶體和快取,為工作負載提供有效的服務品質 (QoS) 和故障隔離。這也表示,即使有一個在執行個體上執行的應用程式發生故障,也不會對其他執行個體上執行的應用程式造成影響。不同的執行個體可以執行不同類型的工作負載,例如互動式模型開發、深度學習訓練、人工智慧推論或 HPC 應用程式。由於每個執行個體是平行運作,所以工作負載也在各自獨立且安全的狀態下在實體 A100 GPU 上平行運作。

MIG 非常適合人工智慧模型開發和低延遲推論等工作負載。這些工作負載可以充分發揮 A100 的功能優勢,並適當運用每個執行個體分配的記憶體。

專為 IT 和 DevOps 打造

MIG 是專為 IT 和 DevOps 團隊可輕鬆部署所打造。

每個 MIG 執行個體都像應用程式的獨立 GPU 一樣運作,因此 CUDA® 程式化模型無需更改。NGC™ 等容器中的人工智慧模型和 HPC 應用程式,可直接在 NVIDIA 容器執行階段的 MIG 執行個體上運行。MIG 執行個體在容器編排器如 Kubernetes 中會以其他 GPU 資源呈現,可將容器化工作負載安排在特定 GPU 執行個體中運行。此功能近期可透過 NVIDIA 針對 Kubernetes 的裝置外掛程式取得

組織可以在搭載 NVIDIA 虛擬化運算伺服器 (vCS) 的 MIG GPU 執行個體上,充分發揮虛擬機管理器架構伺服器虛擬化的管理、監控和營運優勢,包含採用即時移轉和多租用戶等。

深入探索 NVIDIA Ampere 架構。