NVIDIA HGX A100

採用 NVIDIA A100 Tensor 核心 GPU、 NVLink 與 NVSwitch 技術

地表最強大的人工智慧與高效能運算加速伺服器平台

無論是機器學習中的超大型資料集、深度學習中呈現爆炸性成長的模型大小,還是高效能運算 (HPC) 中的複雜模擬,都需要用到多個超高速互連的 GPU。NVIDIA HGX™ A100 整合了 NVIDIA A100 Tensor 核心 GPU、全新的 NVIDIA® NVLink® 與 NVSwitch™ 高速互連技術,打造地表功能最強大的伺服器。HGX A100 經過全面測試、且採用方便部署的基板形式,可與合作夥伴伺服器整合,保證提供預期效能。

無與倫比的加速運算效能

HGX A100 採用第三代 Tensor 核心,不需額外設定即可藉著 Tensor Float 32 (TF32) 將人工智慧加速 10 倍,並透過 FP64 將 HPC 加速 2.5 倍。搭載 4 個 GPU 的 NVIDIA HGX™ A100 可為最嚴苛的 HPC 工作負載,提供近 80 teraFLOPS 的 FP64 效能。 搭載 8 個 GPU 的 NVIDIA HGX™ A100 可提供 5 petaFLOPS 的 FP16 深度學習運算效能;而搭載 16 個 GPU 的 HGX A100 則能提供驚人的 10 petaFLOPS 運算效能,創造地表最強大的人工智慧與 HPC 可擴充  加速伺服器平台。

搭載 8 個 GPU 的 NVIDIA HGX A100

搭載 8 個 GPU 的 NVIDIA HGX A100

搭載 4 個 GPU 的 NVIDIA HGX A100

搭載 4 個 GPU 的 NVIDIA HGX A100

使用 TF32 進行 AI 訓練提升最高 6 倍效能

BERT 訓練

nvidia-a100-6x-tf32-ai-training-2c50-d

深度學習效能

深度學習模型的規模和複雜度呈現爆炸性成長。這表示人工智慧模型需要擁有龐大記憶體、大量運算能力和高速互連技術的系統,才能提供高效率的擴充能力。NVIDIA NVSwitch 提供高速、完全 GPU 至 GPU 通訊,讓 HGX A100 具備處理全球最先進人工智慧模型的運算能力。搭載 8 個 GPU 的單一 NVIDIA HGX™ A100 即可取代 XXX 台 CPU 伺服器,為資料中心節省大量成本、空間及能源。

機器學習效能

機器學習模型需要載入、轉換和處理超大型資料集,才能取得見解。HGX A100 擁有超過 0.5 TB 的整合記憶體空間,以及透過 NVSwitch 連線的完全 GPU 至 GPU 通訊, 能夠載入並執行大型資料集運算,快速產出可用見解。

機器學習效能

四年間達到 9 倍以上 HPC 效能提升

熱門 HPC 應用程式產出

nvidia-a100-9x-hpc-2c50-d

HPC 效能

HPC 應用程式需要強大的運算能力,才能每秒執行大量運算。增加每個伺服器節點的運算密度可以顯著降低所需的伺服器數量,進而大幅降低資料中心所消耗的成本、能源與空間。針對 HPC 模擬,高維度矩陣乘法需要處理器從多個鄰近的位置擷取資料以進行運算,因此使用 NVLink 連結 GPU 可以達到最佳效果。執行相同科學應用程式時,搭載 4 個 GPU 的單一 NVIDIA HGX™ A100 即可取代 100 台 CPU 伺服器,為資料中心節省大量成本、空間及能源。

最強大的端對端人工智慧和 HPC 資料中心平台

完整的 NVIDIA 資料中心 解決方案包含硬體、網路、應用軟體、函式庫的建置組塊,以及 NGC. 上的最佳化人工智慧模型和應用程式。它是最強大的資料中心端對端人工智慧和 HPC 平台,可以讓研究人員提供實際結果,並將解決方案 大規模部署到生產環境中。

HGX A100 規格

HGX A100 提供單基板,並搭載 4 個或 8 個 A100 GPU。4 個 GPU 的配置完全使用 NVLink 互連,8 個 GPU 版本則使用 NVSwitch 互連。兩張搭載 8 個 GPU 的 NVIDIA HGX™ A100 基板也能夠使用 NVSwitch 互連,打造單節點 16 個 GPU 的強大伺服器。

4 個 GPU 8 個 GPU 16 個 GPU
GPUs 4張 NVIDIA A100 8張 NVIDIA A100 16張 NVIDIA A100
HPC 和 AI FP64/TF32*/FP16*/INT8* 計算 78TF/1.25PF*/2.5PF*/5POPS* 156TF/2.5PF*/5PF*/10POPS* 312TF/5PF*/10PF*/20POPS*
記憶體 160 GB 320 GB 640 GB
NVIDIA NVLink 第三代 第三代 第三代
NVSwitch GPU 至 GPU 頻寬 N/A 第二代 第二代
NVIDIA NVSwitch GPU-to-GPU 頻寬 N/A 每秒 600 GB/s 每秒 600 GB/s
彙總頻寬大小總計 每秒 2.4 TB/s 每秒 4.8 TB/s 每秒 9.6 TB/s

HGX-1 與 HGX-2 參考架構

採用 NVIDIA GPU 與 NVLINK 技術。

NVIDIA HGX-1 與 HGX-2 是針對加速人工智慧與 HPC 資料中心所訂立設計標準的參考架構。HGX 參考架構採用 NVIDIA SXM2 V100 基板,並搭載 NVIDIA NVLink 和 NVSwitch 互連技術,能夠提供模組化設計,適合超大規模的混合式資料中心使用,最高能提供 2 petaFLOPS 的運算效能,為人工智慧與 HPC 提供快速、簡單的發展途徑。

採用 NVIDIA GPU 與 NVLINK 技術。

規格

8 個 GPU
HGX-1 
16 個 GPU
HGX-2 
GPU 8 張 NVIDIA V100 16 張 NVIDIA V100
人工智慧運算 1 petaFLOPS (FP16) 2 petaFLOPS (FP16)
記憶體 256 GB 512 GB
NVLink 第二代 第二代
NVSwitch N/A
NVSwitch GPU 至 GPU 頻寬 N/A 每秒 300 GB
彙總頻寬大小總計 每秒 2.4 TB/s 每秒 4.8 TB/s

探索 NVIDIA Ampere 架構

瞭解 NVIDIA Ampere 架構的最新消息,以及在 NVIDIA A100 GPU 的實作情況。