NVIDIA A100 Tensor 核心 GPU

為各種規模的作業提供前所未有的加速能力

加速現今最重要的工作

NVIDIA A100 Tensor 核心 GPU 為各種規模的人工智慧、資料分析和高效能運算 (HPC) 作業提供前所未有的加速能力,以解決全球最嚴苛的運算挑戰。作為 NVIDIA 資料中心平台引擎,A100 可有效率地擴充到數千個 GPU,若採用 NVIDIA 多執行個體 GPU (MIG) 技術,則可將 A100 分割為七個 GPU 執行個體,加速各種規模的工作負載。第三代 Tensor 核心可加速多種工作負載的各種精度,加快獲得深入分析及產品上市的時間。

最強大的端對端人工智慧和 HPC 資料中心平台

完整的 NVIDIA 資料中心解決方案系列包含硬體、網路、應用軟體、函式庫的建置組塊,以及 NGC 上的最佳化人工智慧模型和應用程式,而 A100 是當中的一份子。它是最強大的資料中心端對端人工智慧和 HPC 平台,可以讓研究人員提供實際結果,並將解決方案大規模部署到正式環境中。

Ampere 製作過程影片

使用 TF32 進行 AI 訓練提升最高 6 倍效能

BERT 訓練

使用 TF32 進行 AI 訓練提升最高 6 倍效能

深度學習訓練

隨著人工智慧模型處理更高一級的挑戰,例如精確的對話式人工智慧和深度推薦系統,其複雜度也急遽增長。訓練模型需要極強大的運算和擴充能力。

若使用精度為 Tensor Float (TF32) 的 NVIDIA A100 第三代 Tensor 核心可在完全不變更程式碼的情況下,提供比上一代產品高 20 倍的效能,若使用自動混合精度還可進一步提高 2 倍。與第三代 NVIDIA® NVLink®、NVIDIA NVSwitch™、PCI Gen4、NVIDIA Mellanox InfiniBand 和 NVIDIA Magnum IO 應用軟體 SDK 搭配使用時,還可能擴充到數千個 A100 GPU。這表示像 BERT 這樣的大型人工智慧模型在 1024 個 A100 組成的叢集上只需 37 分鐘即可完成訓練,提供前所未有的效能和擴充能力。

NVIDIA 的訓練領先地位在人工智慧訓練的第一個業界基準測試 MLPerf 0.6 中展露無遺。

深度學習推論

A100 帶來創新功能以最佳化推論工作負載。其可從 FP32、FP16、INT8 以及一路到 INT4 的全精度範圍進行加速,提供前所未有的多樣性。 多執行個體 GPU (MIG) 技術可讓多個網路在單一 A100 GPU 上同時運作,以最佳的方式使用運算資源。除了 A100 提升的其他推論效能以外,結構性稀疏的支援可提供高達 2 倍的效能。

NVIDIA 早已提供領先業界的推論效能,從我們在第一個業界推論基準測試 MLPerf Inference 0.5 中一率領先他品牌的佳績即可窺知。A100 提供的 10 倍效能將進一步擴大 NVIDIA 的領先地位範圍。

使用多執行個體 GPU 進行 AI 推論提升最高 7 倍效能

BERT 大規模推論

使用多執行個體 GPU 進行 AI 推論提升最高 7 倍效能

四年間達到 9 倍以上 HPC 效能提升

熱門 HPC 應用程式產出

四年間達到 9 倍以上 HPC 效能提升

高效能運算

為了找出更新的發現,科學家希望透過模擬以更加瞭解藥物開發的複雜分子、透過物理來尋找潛在的新能源,以及大氣資料以更準確預測天氣,並為極端天氣做好準備。

A100 帶來的雙精度 Tensor 核心,是自從將 GPU 引入 HPC 雙精度運算技術以來最大的里程碑。原本研究人員透過 NVIDIA V100 Tensor 核心 GPU 執行雙精度模擬需耗時 10 個小時,透過 A100 將可縮短為 4 個小時。在執行單精度矩陣乘法作業時,HPC 應用程式還可以利用 A100 TF32 精度的 Tensor 核心提供高達 10 倍的輸送量。

資料分析

客戶需要能夠分析、視覺化,並將龐大資料集轉換成深入分析。但是,由於這些資料集分散在多個伺服器上,因而經常無法實行擴展解決方案。

使用 A100 的加速伺服器可提供所需的運算能力,包含每秒 1.6 TB (TB/秒) 的記憶體頻寬、第三代 NVLink 和 NVSwitch 的擴充能力,來處理這些龐大的工作負載。NVIDIA 資料中心平台結合 Mellanox InfiniBand、Magnum IO SDK、GPU 加速的 Spark 3.0 和 RAPIDS™ (GPU 加速資料分析專用的應用軟體套件),NVIDIA 資料中心平台能用前所未有的效能和效率加速這些龐大工作負載。

High-Performance Data Analytics

使用多執行個體 GPU 得到 7 倍以上推論產出

BERT 大規模推論

使用多執行個體 GPU 得到 7 倍以上推論產出

適用於企業

運用 (MIG) 的 A100 可將 GPU 加速的基礎架構使用率提高到前所未見的程度。MIG 可將 A100 GPU 安全地分割成多達七個獨立的執行個體,讓多名使用者存取 GPU 加速來執行他們的應用程式和開發專案。此外,NVIDIA 虛擬化運算伺服器 (vCS) 還可讓資料中心管理員在 MIG 執行個體上獲得虛擬機管理器架構伺服器虛擬化的管理和營運優勢。MIG 讓基礎架構管理員能以更鉅細靡遺的方式佈建 GPU 資源,為開發人員提供適用的運算能力,並確保善用所有 GPU 資源。

資料中心 GPU

針對 HGX 的 NVIDIA A100

針對 HGX 的 NVIDIA A100

所有工作負載的終極效能

針對 PCIe 的 NVIDIA A100

針對 PCIe 的 NVIDIA A100

所有工作負載的最佳多元應用

規格

  適用 HGX 的NVIDIA A100 適用 PCIe 的NVIDIA A100
FP64 最佳效能 9.7 TF 9.7 TF
FP64 Tensor 核心最佳效能 19.5 TF 19.5 TF
FP32 最佳效能 19.5 TF 19.5 TF
TF32 Tensor 核心最佳效能 156 TF | 312 TF* 156 TF | 312 TF*
BFLOAT16 Tensor 核心最佳效能 312 TF | 624 TF* 312 TF | 624 TF*
FP16 Tensor 核心最佳效能 312 TF | 624 TF* 312 TF | 624 TF*
INT8 Tensor 核心最佳效能 624 TOPS | 1,248 TOPS* 624 TOPS | 1,248 TOPS*
INT4 Tensor 核心最佳效能 1,248 TOPS | 2,496 TOPS* 1,248 TOPS | 2,496 TOPS*
GPU 記憶體 40 GB 40 GB
GPU 記憶體頻寬 1,555 GB/s 1,555 GB/s
互連 NVIDIA NVLink 600 GB/s**
PCIe Gen4 64 GB/s
NVIDIA NVLink 600 GB/s**
PCIe Gen4 64 GB/s
多執行個體 GPU 最高到七個 5GB 不同容量的執行個體 最高到七個 5GB 不同容量的執行個體
尺寸規格 NVIDIA HGX A100 使用 4/8 SXM PCIe
最大 TDP 功耗 400W 250W
熱門應用程式使用效能 100% 90%
 

一窺 NVIDIA Ampere 架構

加入此線上研討會,瞭解 NVIDIA Ampere 架構的最新消息,以及在 NVIDIA A100 GPU 的實作情況。