NVIDIA A100 Tensor  核心 GPU

為各種規模的作業提供前所未有的加速能力

加速現今最重要的工作

NVIDIA A100 Tensor 核心 GPU 為各種規模的作業提供前所未有的加速能力,可強化全球效能最高的彈性資料中心,支援人工智慧、資料分析和高效能運算。A100 採用 NVIDIA Ampere 架構,為 NVIDIA 資料中心平台的引擎。A100 提供的效能比前一代高 20 倍,還可以分割成 7 個 GPU 執行個體,根據不斷變化的需求進行動態調整。A100 提供 40 GB 和 80 GB 的記憶體版本,並在 80 GB 版本上首度推出全球最快速的記憶體頻寬,每秒超過 2 TB (TB/秒),可解決最大的模型和資料集。

適用於人工智慧的企業級軟體

NVIDIA EGX™ 平台內含的最佳化軟體能在基礎架構中提供加速運算。透過 NVIDIA AI Enterprise,企業可以使用人工智慧與資料分析軟體的端對端雲端原生套件,該軟體經由 NVIDIA 最佳化、認證和支援,可在使用 NVIDIA 認證系統™ 的 VMware vSphere 上執行;NVIDIA AI Enterprise 內含 NVIDIA 的關鍵致能技術,能在現代混合雲端中快速部署、管理及調整人工智慧工作負載。

最強大的端對端人工智慧和高效能運算資料中心平台

A100 是 NVIDIA 資料中心的一部份,完整的解決方案包含硬體、網路、軟體、函式庫的建置組塊,以及 NGC 上的最佳化人工智慧模型和應用程式。其代表最強大的資料中心端對端人工智慧和高效能運算平台,讓研究人員能快速產出實際成果,並將解決方案大規模部署到生產環境中。

 

Ampere 製作過程影片

深度學習訓練

在最大模型上進行高達 3 倍的人工智慧訓練

DLRM 訓練

在最大模型上進行高達 3 倍的人工智慧訓練

隨著人工智慧模型處理更高一級的挑戰 (如對話式人工智慧),其複雜度也急遽增長。訓練模型需要極強大的運算和擴充能力。

若使用精度為 Tensor Float (TF32) 的 NVIDIA A100 Tensor 核心,可在完全不變更程式碼的情況下,提供比 NVIDIA Volta 高 20 倍的效能,若使用自動混合精度和 FP16,還可進一步提高 2 倍。與 NVIDIA® NVLink®、NVIDIA NVSwitch、第四代 PCI、NVIDIA® InfiniBand®NVIDIA Magnum IO SDK 搭配使用時,還可以擴充到使用數千個 A100 GPU。

像是 BERT 這類的訓練工作負載,可在一分鐘內以 2,048 個 A100 GPU 大規模處理,創下全球獲得解決方案的最短時間記錄。

對於具有大型資料表格的最大模型,如用於推薦系統的深度學習建議模型 (DLRM),A100 80 GB 每個節點最多可達到 1.3 TB 的整合記憶體,並提供比 A100 40 GB 多達 3 倍的輸送量。

MLPerf 在人工智慧訓練業界級的基準測試中,創下多項效能記錄,完整體現 NVIDIA 的業界領先地位。

深度學習推論

A100 帶來創新功能以最佳化推論工作負載。從 FP32 到 INT4,加速整個精度範圍。多執行個體 GPU (MIG) 技術可讓多個網路在單一 A100 上同時運作,以最佳方式使用運算資源。除了 A100 提升的其他推論效能以外,支援結構化稀疏可提供高達 2 倍的效能。

在 BERT 等先進對話式人工智慧模型中,A100 可加速的推論輸送量是 CPU 的 249 倍。

在批次大小受到限制的高度複雜模型 (如 RNN-T) 中,為了提供自動語音辨識功能,A100 80 GB 增加的記憶體容量會將每個 MIG 的大小加倍,並提供比 A100 40 GB 高 1.25 倍的輸送量。

NVIDIA 領先業界的效能已在 MLPerf 推論中得到證實。A100 提供的 20 倍效能將進一步擴大 NVIDIA 的領先地位。

與 CPU 相比,
人工智慧推論效能提升多達 249 倍

BERT 大型推論

與 CPU 相比,人工智慧推論效能提升多達 249 倍

與 A100 40 GB 相比,
人工智慧推論效能提升多達 1.25 倍

RNN-T 推論:單一串流

與 A100 40 GB 相比,人工智慧推論效能提升多達 1.25 倍

高效能運算

為了推進新一代發現成果,科學家需要模擬技術以更透徹地瞭解我們周圍的世界。

自 GPU 問世以來,NVIDIA A100 帶來的雙精度 Tensor 核心是高效能運算領域中的最大進展。 搭配 80 GB 速度最快的 GPU 記憶體,研究人員可以將 A100 原需要 10 小時的雙精度模擬,縮短至 4 小時以內完成。在執行單精度的密集矩陣乘法作業時,高效能運算應用程式還可以利用 TF32,藉以提供高達 11 倍的輸送量。

對於擁有最大資料集的高效能運算應用程式,A100 80 GB 可採用一種名為 Quantum Espresso 的材質模擬,使額外記憶體的輸送量提升高達 2 倍。這種龐大的記憶體和前所未有的記憶體頻寬,讓 A100 80 GB 成為新一代工作負載的理想平台。

4 年內,高效能運算效能可提升 11 倍

頂尖高效能運算應用程式

4 年內,高效能運算效能可提升 11 倍

為高效能運算應用程式提升高達 1.8 倍效能

Quantum Espresso

為高效能運算應用程式提升高達 1.8 倍效能

高效能資料分析

在巨量資料分析基準測試中,效能為 A100 40GB 的 2 倍

在巨量資料分析基準測試中,效能為 A100 40GB 的 2 倍

資料科學家要能夠分析、視覺化,並將龐大資料集轉換成深入分析。但是,由於這些資料集分散在多個伺服器上,經常無法實行擴充解決方案。

使用 A100 的加速伺服器可提供處理這些工作負載所需的運算能力,包含每秒超過 2 TB (TB/秒) 的記憶體頻寬以及 NVIDIA® NVLink® 和 NVSwitch 的擴充能力。NVIDIA 資料中心平台結合了 InfiniBand、NVIDIA Magnum IO 以及 RAPIDS 開放原始碼函式庫套件,包括用於獲得 GPU 加速的資料分析,適用於 Apache Spark 的 RAPIDS 加速器,能夠以前所未有的效能與效率,加速這些龐大的工作負載。

在巨量資料分析基準測試中,A100 80 GB 比起 A100 40 GB 提供了高出 2 倍的深入分析,因此非常適合資料集急遽成長的新興工作負載。

適用於企業

多執行個體 GPU (MIG) 的推論輸送量提高 7 倍

BERT 大型推論

多執行個體 GPU (MIG) 的推論輸送量提高 7 倍

運用 MIG 的 A100 可將 GPU 加速的基礎架構使用率提升到最高。MIG 可將 A100 GPU 安全地分割成多達 7 個獨立的執行個體,讓多名使用者存取 GPU 加速功能。A100 40 GB 可讓每個 MIG 執行個體分配到多達 5 GB,而 A100 80 GB 因為記憶體容量增加,分配大小可加倍至 10 GB。

MIG 能與 Kubernetes、容器和以監視器為基礎的伺服器虛擬化搭配使用。MIG 讓基礎架構管理員能為每項作業提供適當規模的 GPU 及服務品質保障 (QoS),將加速運算資源的範圍延伸至每位使用者。

徹底發揮系統效能

NVIDIA 認證系統 (包括 A100 和 NVIDIA Mellanox SmartnNIC 與 DPU) 經過效能、功能、可擴充性和安全性的驗證,讓企業能夠針對 NVIDIA NGC 目錄的人工智慧工作負載,輕鬆部署完整解決方案。

資料中心 GPU

適用於 HGX 的NVIDIA A100

適用於 HGX 的NVIDIA A100

為所有工作負載提供終極效能。

適用於 PCIe 的 NVIDIA A100

適用於 PCIe 的 NVIDIA A100

為所有工作負載提供最高程度的多樣性。

規格

  A100 40GB PCIe A100 80GB PCIe A100 40GB SXM A100 80GB SXM
FP64 9.7 兆次浮點運算
FP64 Tensor 核心 19.5 兆次浮點運算
FP32 19.5 兆次浮點運算
Tensor Float 32 (TF32) 156 兆次浮點運算 | 312 兆次浮點運算*
BFLOAT16 Tensor 核心 312 兆次浮點運算 | 624 兆次浮點運算*
FP16 Tensor 核心 312 兆次浮點運算 | 624 兆次浮點運算*
INT8 Tensor 核心 624 兆次浮點運算 | 1248 兆次浮點運算*
GPU 記憶體 40GB HBM2 80GB HBM2e 40GB HBM2 80GB HBM2e
GPU 記憶體頻寬 每秒 1,555GB 每秒 1,935GB 每秒 1,555GB 每秒 2,039GB
最大散熱設計功耗 (TDP) 250W 300W 400W 400W
多執行個體 GPU 最多 7 個 MIG @ 5GB 最多 7 個 MIG @ 10GB 最多 7 個 MIG @ 5GB 最多 7 個 MIG @ 10GB
尺寸規格 PCIe SXM
互連技術 NVIDIA® NVLink® 橋接器,可支援 2 個 GPU:每秒 600GB **
第四代 PCIe:每秒 64GB
NVLink:每秒 600GB
第四代 PCIe:每秒 64GB
伺服器選項 合作夥伴提供的 NVIDIA 認證系統,搭載 1-8 個 GPU 與合作夥伴整合的 NVIDIA HGX A100 及合作夥伴提供的 NVIDIA 認證系統™,搭載 4、8 或 16 個 GPU
NVIDIA DGX A100,搭載 8 個 GPU
 

查看最新 MLPerf 基準資料

一窺 NVIDIA Ampere 架構

瞭解 NVIDIA Ampere 架構的最新消息,以及在 NVIDIA A100 GPU 的實作情況。