為各種規模的作業提供前所未有的加速能力
NVIDIA A100 Tensor 核心 GPU 為各種規模的人工智慧、資料分析和高效能運算 (HPC) 作業提供前所未有的加速能力,以解決全球最嚴苛的運算挑戰。作為 NVIDIA 資料中心平台引擎,A100 可有效率地擴充到數千個 GPU,若採用 NVIDIA 多執行個體 GPU (MIG) 技術,則可將 A100 分割為七個 GPU 執行個體,加速各種規模的工作負載。第三代 Tensor 核心可加速多種工作負載的各種精度,加快獲得深入分析及產品上市的時間。
完整的 NVIDIA 資料中心解決方案系列包含硬體、網路、應用軟體、函式庫的建置組塊,以及 NGC™ 上的最佳化人工智慧模型和應用程式,而 A100 是當中的一份子。它是最強大的資料中心端對端人工智慧和 HPC 平台,可以讓研究人員提供實際結果,並將解決方案大規模部署到正式環境中。
BERT 訓練
BERT pre-training throughput using Pytorch, including (2/3) Phase 1 and (1/3) Phase 2 | Phase 1 Seq Len = 128, Phase 2 Seq Len = 512; V100: NVIDIA DGX-1™ server with 8x V100 using FP32 precision; A100: DGX A100 Server with 8x A100 using TF32 precision.
隨著人工智慧模型處理更高一級的挑戰,例如精確的對話式人工智慧和深度推薦系統,其複雜度也急遽增長。訓練模型需要極強大的運算和擴充能力。
若使用精度為 Tensor Float (TF32) 的 NVIDIA A100 第三代 Tensor 核心可在完全不變更程式碼的情況下,提供比上一代產品高 20 倍的效能,若使用自動混合精度還可進一步提高 2 倍。與第三代 NVIDIA® NVLink®、NVIDIA NVSwitch™、PCI Gen4、NVIDIA Mellanox InfiniBand 和 NVIDIA Magnum IO™ 應用軟體 SDK 搭配使用時,還可能擴充到數千個 A100 GPU。這表示像 BERT 這樣的大型人工智慧模型在 1024 個 A100 組成的叢集上只需 37 分鐘即可完成訓練,提供前所未有的效能和擴充能力。
NVIDIA 的訓練領先地位在人工智慧訓練的第一個業界基準測試 MLPerf 0.6 中展露無遺。
A100 帶來創新功能以最佳化推論工作負載。其可從 FP32、FP16、INT8 以及一路到 INT4 的全精度範圍進行加速,提供前所未有的多樣性。 多執行個體 GPU (MIG) 技術可讓多個網路在單一 A100 GPU 上同時運作,以最佳的方式使用運算資源。除了 A100 提升的其他推論效能以外,結構性稀疏的支援可提供高達 2 倍的效能。
NVIDIA 早已提供領先業界的推論效能,從我們在第一個業界推論基準測試 MLPerf Inference 0.5 中一率領先他品牌的佳績即可窺知。A100 提供的 10 倍效能將進一步擴大 NVIDIA 的領先地位範圍。
BERT 大規模推論
BERT Large Inference | NVIDIA T4 Tensor Core GPU: NVIDIA TensorRT™ (TRT) 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 7 MIG instances of 1g.5gb: pre-production TRT, batch size = 94, precision = INT8 with sparsity.
熱門 HPC 應用程式產出
Geometric mean of application speedups vs. P100: benchmark application: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT Large Fine Tuner], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64 : 10)], TensorFlow [ResNet-50], VASP 6 [Si Huge], | GPU node with dual-socket CPUs with 4x NVIDIA P100, V100, or A100 GPUs.
為了找出更新的發現,科學家希望透過模擬以更加瞭解藥物開發的複雜分子、透過物理來尋找潛在的新能源,以及大氣資料以更準確預測天氣,並為極端天氣做好準備。
A100 帶來的雙精度 Tensor 核心,是自從將 GPU 引入 HPC 雙精度運算技術以來最大的里程碑。原本研究人員透過 NVIDIA V100 Tensor 核心 GPU 執行雙精度模擬需耗時 10 個小時,透過 A100 將可縮短為 4 個小時。在執行單精度矩陣乘法作業時,HPC 應用程式還可以利用 A100 TF32 精度的 Tensor 核心提供高達 10 倍的輸送量。
客戶需要能夠分析、視覺化,並將龐大資料集轉換成深入分析。但是,由於這些資料集分散在多個伺服器上,因而經常無法實行擴展解決方案。
使用 A100 的加速伺服器可提供所需的運算能力,包含每秒 1.6 TB (TB/秒) 的記憶體頻寬、第三代 NVLink 和 NVSwitch 的擴充能力,來處理這些龐大的工作負載。NVIDIA 資料中心平台結合 Mellanox InfiniBand、Magnum IO SDK、GPU 加速的 Spark 3.0 和 RAPIDS™ (GPU 加速資料分析專用的應用軟體套件),NVIDIA 資料中心平台能用前所未有的效能和效率加速這些龐大工作負載。
BERT Large Inference | NVIDIA TensorRT™ (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = INT8 with sparsity.
運用 (MIG) 的 A100 可將 GPU 加速的基礎架構使用率提高到前所未見的程度。MIG 可將 A100 GPU 安全地分割成多達七個獨立的執行個體,讓多名使用者存取 GPU 加速來執行他們的應用程式和開發專案。此外,NVIDIA 虛擬化運算伺服器 (vCS) 還可讓資料中心管理員在 MIG 執行個體上獲得虛擬機管理器架構伺服器虛擬化的管理和營運優勢。MIG 讓基礎架構管理員能以更鉅細靡遺的方式佈建 GPU 資源,為開發人員提供適用的運算能力,並確保善用所有 GPU 資源。
所有工作負載的終極效能
所有工作負載的最佳多元應用
* 稀疏優化 ** 透過 HGX A100 伺服器主機板使用 SXM 版 GPU ,透過 NVLink Bridge 使用最多兩個 PCIe 版 GPU
加入此線上研討會,瞭解 NVIDIA Ampere 架構的最新消息,以及在 NVIDIA A100 GPU 的實作情況。