This site requires Javascript in order to view all its content. Please enable Javascript in order to access all the functionality of this web site. Here are the instructions how to enable JavaScript in your web browser.

NVIDIA A100 Tensor 核心 GPU

為各種規模的作業提供前所未有的加速能力

加速現今最重要的工作

NVIDIA A100 Tensor Core GPU 可在各種規模中提供前所未有的加速能力，為全球效能最強的資料中心提供 AI、資料分析及高效能運算 (HPC)等強大運算能力。A100 採用 NVIDIA Ampere 架構，是 NVIDIA 資料中心平台的核心動能。A100 的效能比前一代高出 20 倍，並可分割為 7 個 GPU 執行個體，以動態調整滿足不斷變化的需求。A100 80GB 具有全球最快的記憶體頻寬，每秒超過 2 TB(TB/s)，可執行最大的模型與資料集。

閱讀 NVIDIA A100 資料表 (PDF 640 KB)

閱讀 NVIDIA A100 80GB PCIe 產品簡介 (PDF 380 KB)

閱讀 NVIDIA A100 40GB PCIe 產品簡介 (PDF 332 KB)

適用於人工智慧的企業級軟體

NVIDIA EGX™ 平台內含的最佳化軟體能在基礎架構中提供加速運算。透過 NVIDIA AI Enterprise，企業可以使用人工智慧與資料分析軟體的端對端雲端原生套件，該軟體經由 NVIDIA 最佳化、認證和支援，可在使用 NVIDIA 認證系統™ 的 VMware vSphere 上執行；NVIDIA AI Enterprise 內含 NVIDIA 的關鍵致能技術，能在現代混合雲端中快速部署、管理及調整人工智慧工作負載。

深入瞭解

最強大的端對端人工智慧和高效能運算資料中心平台

A100 是 NVIDIA 資料中心的一部份，完整的解決方案包含硬體、網路、軟體、函式庫的建置組塊，以及 NGC^™ 上的最佳化人工智慧模型和應用程式。其代表最強大的資料中心端對端人工智慧和高效能運算平台，讓研究人員能快速產出實際成果，並將解決方案大規模部署到生產環境中。

Ampere 製作過程影片

觀看影片

深度學習訓練

在最大模型上進行高達 3 倍的人工智慧訓練

DLRM 訓練

DLRM on HugeCTR framework, precision = FP16 | NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32。

隨著人工智慧模型處理更高一級的挑戰 (如對話式人工智慧)，其複雜度也急遽增長。訓練模型需要極強大的運算和擴充能力。

若使用精度為 Tensor Float (TF32) 的 NVIDIA A100 Tensor 核心，可在完全不變更程式碼的情況下，提供比 NVIDIA Volta 高 20 倍的效能，若使用自動混合精度和 FP16，還可進一步提高 2 倍。與 NVIDIA^® NVLink^®、NVIDIA NVSwitch^™、第四代 PCI、NVIDIA^® InfiniBand^® 和 NVIDIA Magnum IO^™ SDK 搭配使用時，還可以擴充到使用數千個 A100 GPU。

像是 BERT 這類的訓練工作負載，可在一分鐘內以 2,048 個 A100 GPU 大規模處理，創下全球獲得解決方案的最短時間記錄。

對於具有大型資料表格的最大模型，如用於推薦系統的深度學習建議模型 (DLRM)，A100 80 GB 每個節點最多可達到 1.3 TB 的整合記憶體，並提供比 A100 40 GB 多達 3 倍的輸送量。

MLPerf 在人工智慧訓練業界級的基準測試中，創下多項效能記錄，完整體現 NVIDIA 的業界領先地位。

深入瞭解適用於訓練的 A100

深度學習推論

A100 帶來創新功能以最佳化推論工作負載。從 FP32 到 INT4，加速整個精度範圍。多執行個體 GPU (MIG) 技術可讓多個網路在單一 A100 上同時運作，以最佳方式使用運算資源。除了 A100 提升的其他推論效能以外，支援結構化稀疏可提供高達 2 倍的效能。

在 BERT 等先進對話式人工智慧模型中，A100 可加速的推論輸送量是 CPU 的 249 倍。

在批次大小受到限制的高度複雜模型 (如 RNN-T) 中，為了提供自動語音辨識功能，A100 80 GB 增加的記憶體容量會將每個 MIG 的大小加倍，並提供比 A100 40 GB 高 1.25 倍的輸送量。

NVIDIA 領先業界的效能已在 MLPerf 推論中得到證實。A100 提供的 20 倍效能將進一步擴大 NVIDIA 的領先地位。

深入瞭解適用於推論的 A100

與 CPU 相比，
人工智慧推論效能提升多達 249 倍

BERT 大型推論

BERT-Large Inference | CPU only: Xeon Gold 6240 @ 2.60 GHz, precision = FP32, batch size = 128 | V100：NVIDIA TensorRT^™ (TRT) 7.2, precision = INT8, batch size = 256 | A100 40GB and 80GB, batch size = 256, precision = INT8，具稀疏性。

與 A100 40 GB 相比，
人工智慧推論效能提升多達 1.25 倍

RNN-T 推論：單一串流

MLPerf 0.7 RNN-T measured with (1/7) MIG slices. Framework: TensorRT 7.2, dataset = LibriSpeech, precision = FP16。

高效能運算

為了推進新一代發現成果，科學家需要模擬技術以更透徹地瞭解我們周圍的世界。

自 GPU 問世以來，NVIDIA A100 帶來的雙精度 Tensor 核心是高效能運算領域中的最大進展。搭配 80 GB 速度最快的 GPU 記憶體，研究人員可以將 A100 原需要 10 小時的雙精度模擬，縮短至 4 小時以內完成。在執行單精度的密集矩陣乘法作業時，高效能運算應用程式還可以利用 TF32，藉以提供高達 11 倍的輸送量。

對於擁有最大資料集的高效能運算應用程式，A100 80 GB 可採用一種名為 Quantum Espresso 的材質模擬，使額外記憶體的輸送量提升高達 2 倍。這種龐大的記憶體和前所未有的記憶體頻寬，讓 A100 80 GB 成為新一代工作負載的理想平台。

瞭解 HPC 應用程式上的最新 GPU 效能

4 年內，高效能運算效能可提升 11 倍

頂尖高效能運算應用程式

應用程式速度提升的幾何平均值 vs. P100：基準應用程式：Amber [PME-Cellulose_NVE]、Chroma [szscl21_24_128]、GROMACS [ADH Dodec]、MILC [Apex Medium]、NAMD [stmv_nve_cuda]、PyTorch (BERT 大型微調調諧器]、Quantum Espresso [AUSURF112-jR]；Random Forest FP32 [make_blobs (160000 x 64：10)]、TensorFlow [ResNet-50]、VASP 6 [Si Huge] | GPU 節點採用雙插槽 CPU 並搭載 4 個 NVIDIA P100、V100 或 A100 GPU。

為高效能運算應用程式提升高達 1.8 倍效能

Quantum Espresso

Quantum Espresso measured using CNT10POR8 dataset, precision = FP64。

高效能資料分析

在巨量資料分析基準測試中，效能為 A100 40GB 的 2 倍

巨量資料分析基準測試 | 在 10TB 資料集進行 30 筆分析零售查詢、ETL、機器學習 (ML)、自然語言處理 (NLP) | V100 32 GB、RAPIDS/Dask | A100 40 GB 與 A100 80 GB、RAPIDS/Dask/BlazingSQL

資料科學家要能夠分析、視覺化，並將龐大資料集轉換成深入分析。但是，由於這些資料集分散在多個伺服器上，經常無法實行擴充解決方案。

使用 A100 的加速伺服器可提供處理這些工作負載所需的運算能力，包含每秒超過 2 TB (TB/秒) 的記憶體頻寬以及 NVIDIA^® NVLink^® 和 NVSwitch^™ 的擴充能力。NVIDIA 資料中心平台結合了 InfiniBand、NVIDIA Magnum IO^™ 以及 RAPIDS^™ 開放原始碼函式庫套件，包括用於獲得 GPU 加速的資料分析，適用於 Apache Spark 的 RAPIDS 加速器，能夠以前所未有的效能與效率，加速這些龐大的工作負載。

在巨量資料分析基準測試中，A100 80 GB 比起 A100 40 GB 提供了高出 2 倍的深入分析，因此非常適合資料集急遽成長的新興工作負載。

深入瞭解資料分析

適用於企業

多執行個體 GPU (MIG) 的推論輸送量提高 7 倍

BERT 大型推論

BERT 大型推論 | NVIDIA TensorRT^™ (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = Int8，具稀疏性。

運用 MIG 的 A100 可將 GPU 加速的基礎架構使用率提升到最高。MIG 可將 A100 GPU 安全地分割成多達 7 個獨立的執行個體，讓多名使用者存取 GPU 加速功能。A100 40 GB 可讓每個 MIG 執行個體分配到多達 5 GB，而 A100 80 GB 因為記憶體容量增加，分配大小可加倍至 10 GB。

MIG 能與 Kubernetes、容器和以監視器為基礎的伺服器虛擬化搭配使用。MIG 讓基礎架構管理員能為每項作業提供適當規模的 GPU 及服務品質保障 (QoS)，將加速運算資源的範圍延伸至每位使用者。

深入瞭解 MIG

徹底發揮系統效能

NVIDIA 認證系統 (包括 A100 和 NVIDIA Mellanox SmartnNIC 與 DPU) 經過效能、功能、可擴充性和安全性的驗證，讓企業能夠針對 NVIDIA NGC 目錄的人工智慧工作負載，輕鬆部署完整解決方案。

深入瞭解

資料中心 GPU

適用於 HGX 的NVIDIA A100

為所有工作負載提供終極效能。

適用於 PCIe 的 NVIDIA A100

為所有工作負載提供最高程度的多樣性。

規格

	A100 80GB PCIe	A100 80GB SXM
FP64	9.7 兆次浮點運算
FP64 Tensor 核心	19.5 兆次浮點運算
FP32	19.5 兆次浮點運算
Tensor Float 32 (TF32)	156 兆次浮點運算 \| 312 兆次浮點運算*
BFLOAT16 Tensor 核心	312 兆次浮點運算 \| 624 兆次浮點運算*
FP16 Tensor 核心	312 兆次浮點運算 \| 624 兆次浮點運算*
INT8 Tensor 核心	624 兆次浮點運算 \| 1248 兆次浮點運算*
GPU 記憶體	80GB HBM2e	80GB HBM2e
GPU 記憶體頻寬	1,935 GB/s	2,039 GB/s
最大散熱設計功耗 (TDP)	300W	400W ***
多執行個體 GPU	最多 7 個 MIGs @ 10GB	最多 7 個 MIGs @ 10GB
尺寸規格	PCIe 雙槽風冷或單槽水冷	SXM
互連技術	NVIDIA^® NVLink^® 橋接器，可支援 2 個 GPU：每秒 600GB ** 第四代 PCIe : 每秒 64GB	NVLink: 每秒 600GB 第四代 PCIe: 每秒 64GB
伺服器選項	合作夥伴提供的 NVIDIA 認證系統™，搭載 1-8 個 GPU	與合作夥伴整合的 NVIDIA HGX™ A100 及合作夥伴提供的 NVIDIA 認證系統™，搭載 4、8 或 16 個 GPU NVIDIA DGX™ A100，搭載 8 個 GPU

* 具有稀疏性
** 透過 HGX A100 伺服器主機板使用 SXM4 GPU；透過 NVLink 橋接器使用 PCIe GPU，最多可支援 2 個 GPU
*** 標準配置為 400W TDP。HGX A100-80GB 客製散熱解決方案 (CTS) SKU 可支援高達 500W 的 TDP

查看最新 MLPerf 基準資料

檢視結果

一窺 NVIDIA Ampere 架構

瞭解 NVIDIA Ampere 架構的最新消息，以及在 NVIDIA A100 GPU 的實作情況。

閱讀白皮書