NVIDIA HGX

採用 NVIDIA A100 Tensor 核心 GPU、 NVLink 與 NVSwitch 技術

最強大的人工智慧與高效能運算加速伺服器平台

大量資料集、急遽成長的模型大小,以及複雜的模擬都需要多個 GPU 和非常快速的互連技術。NVIDIA HGX™ A100 以高速互連技術整合了 NVIDIA A100 Tensor 核心 GPU,打造全球功能最強大的伺服器。單一個 HGX A100 搭載 A100 80 GB GPU 後,可提供高達 1.3 TB 的 GPU 記憶體,以及每秒超過 2 TB 的記憶體頻寬,達到前所未有的加速效能。HGX A100 採用經全面測試且易於部署的基板設計,可與合作夥伴伺服器整合,保證提供優異效能。

無與倫比的加速運算效能

HGX A100 採用第三代 Tensor 核心,不需額外設定即可藉著 Tensor Float 32 (TF32) 將人工智慧加速 20 倍,並透過 FP64 將高效能運算加速 2.5 倍。搭載 4 個 GPU 的 NVIDIA HGX A100 可為最嚴苛的高效能運算工作負載,提供近 80 兆次浮點運算的 FP64 效能。搭載 8 個 GPU 的 NVIDIA HGX A100 可提供 5 兆次浮點運算的 FP16 深度學習運算效能;而搭載 16 個 GPU 的 HGX A100 則能提供驚人的 10 兆次浮點運算效能,成為全球最強大的人工智慧與高效能運算可擴充加速伺服器平台。

搭載 8 個 GPU 的 NVIDIA HGX A100

搭載 8 個 GPU 的 NVIDIA HGX A100

搭載 4 個 GPU 的 NVIDIA HGX A100

搭載 4 個 GPU 的 NVIDIA HGX A100

深度學習效能

機器學習效能

比 CPU 快 83 倍,並且比巨量資料分析基準 A100 40GB 快 2 倍

比 CPU 快 83 倍,並且比巨量資料分析基準 A100 40GB 快 2 倍

機器學習模型需要載入、轉換和處理超大型資料集,才能取得關鍵的深入分析。搭載 A100 80 GB GPU 的 HGX A100 擁有多達 1.3 TB 的整合記憶體空間,以及透過 NVSwitch 串聯全 GPU 至 GPU的通訊技術,能夠載入並執行大型資料集,快速產出可用的深入分析。

在大型資料分析基準測試中,A100 80 GB 提供深入分析的速度比 CPU 快 83 倍,也比 A100 40 GB 快 2 倍,因此非常適合資料集急遽成長的新興工作負載。

高效能運算效能

高效能運算應用程式需要每秒執行大量運算。增加每個伺服器節點的運算密度可以顯著降低所需的伺服器數量,進而大幅降低資料中心所消耗的成本、能源與空間。針對模擬,高維度矩陣乘法需要處理器從多個鄰近位置擷取資料以進行運算,因此使用 NVIDIA NVLink® 連結 GPU 可以達到最佳效果。在執行單精度的密集矩陣乘法作業時,高效能運算應用程式還可以利用 A100 中的 TF32,在 4 年內提供高達 10 倍的輸送量。

搭載 A100 80 GB GPU 的 HGX A100 在採用 Quantum Espresso 這種材質模擬時,速度可以比 A100 40 GB GPU 快 2 倍,藉以加快獲得深入分析所需的時間。

在 4 年內的高效能運算 (HPC) 效能表現高出 11 倍

頂尖高效能運算應用程式

在 4 年內的高效能運算 (HPC) 效能表現高出 11 倍

高效能運算應用程式的效能表現高出 1.8 倍

Quantum Espresso​

高效能運算應用程式的效能表現高出 1.8 倍

HGX A100 規格

HGX A100 提供單基板,並搭載 4 個或 8 個 A100 GPU。4 個 GPU 的配置完全使用 NVLink 互連,8 個 GPU 版本則使用 NVSwitch 互連。兩張搭載 8 個 GPU 的 NVIDIA HGX™ A100 基板也能夠使用 NVSwitch 互連,打造單節點 16 個 GPU 的強大伺服器。

4 個 GPU 8 個 GPU 16 個 GPU
GPUs 4張 NVIDIA A100 8張 NVIDIA A100 16張 NVIDIA A100
HPC 和 AI FP64/TF32*/FP16*/INT8* 計算 78TF/1.25PF*/2.5PF*/5POPS* 156TF/2.5PF*/5PF*/10POPS* 312TF/5PF*/10PF*/20POPS*
記憶體 最高 320 GB 最高 640 GB 最高 1,280 GB
NVIDIA NVLink 第三代 第三代 第三代
NVSwitch GPU 至 GPU 頻寬 N/A 第二代 第二代
NVIDIA NVSwitch GPU-to-GPU 頻寬 N/A 每秒 600 GB/s 每秒 600 GB/s
彙總頻寬大小總計 每秒 2.4 TB/s 每秒 4.8 TB/s 每秒 9.6 TB/s

HGX-1 與 HGX-2 參考架構

採用 NVIDIA GPU 與 NVLINK 技術。

NVIDIA HGX-1 與 HGX-2 是針對加速人工智慧與 HPC 資料中心所訂立設計標準的參考架構。HGX 參考架構採用 NVIDIA SXM2 V100 基板,並搭載 NVIDIA NVLink 和 NVSwitch 互連技術,能夠提供模組化設計,適合超大規模的混合式資料中心使用,最高能提供 2 petaFLOPS 的運算效能,為人工智慧與 HPC 提供快速、簡單的發展途徑。

採用 NVIDIA GPU 與 NVLINK 技術。

規格

8 個 GPU
HGX-1 
16 個 GPU
HGX-2 
GPU 8 張 NVIDIA V100 16 張 NVIDIA V100
人工智慧運算 1 petaFLOPS (FP16) 2 petaFLOPS (FP16)
記憶體 256 GB 512 GB
NVLink 第二代 第二代
NVSwitch N/A
NVSwitch GPU 至 GPU 頻寬 N/A 每秒 300 GB
彙總頻寬大小總計 每秒 2.4 TB/s 每秒 4.8 TB/s

一窺 NVIDIA Ampere 架構

閱讀深入技術分析,瞭解 NVIDIA Ampere 架構的最新消息,以及在 NVIDIA A100 GPU 的實作情況。