This site requires Javascript in order to view all its content. Please enable Javascript in order to access all the functionality of this web site. Here are the instructions how to enable JavaScript in your web browser.

NVIDIA A30
Tensor 核心 GPU

為主流企業伺服器提供多功能的運算加速功能。

深入瞭解

適用於所有企業的人工智慧推論與主流運算技術

運用 NVIDIA A30 Tensor 核心 GPU，為各種企業工作負載提供加速效能。這款 GPU 搭載 NVIDIA Ampere 架構 Tensor 核心與多執行個體 GPU (MIG)，可安全地加速各種工作負載，包括大規模人工智慧推論和高效能運算 (HPC) 應用程式。A30 採用 PCIe 規格，結合快速記憶體頻寬和低耗能的優點，是主流伺服器的最佳選擇，可建立彈性資料中心，並讓企業發揮最大價值。

查看 NVIDIA A30 產品型錄 (PDF 708 KB)

查看 A30 PCIe 產品簡介 (PDF 539 KB)

適用於現代 IT 的資料中心解決方案

NVIDIA Ampere 架構是 NVIDIA 企業資料中心的一部份，完整的解決方案包含硬體、網路、軟體、函式庫的建置組塊，以及 NVIDIA NGC^™ 目錄. 上的最佳化人工智慧模型和應用程式。其代表最強大的資料中心端對端人工智慧和高效能運算平台，讓研究人員能快速產出實際成果，並將解決方案大規模部署到生產環境中。

深度學習訓練

人工智慧訓練：輸送量比 v100 高出 3 倍，比 T4 高 6 倍

BERT 大型推論 (正規化)

NVIDIA A30 Tensor Cores with Tensor Float (TF32)

ERT-Large 預先訓練 (9/10 迭代) 第 1 階段和 (1/10 迭代) 第 2 階段，第 1 階段序列長度 = 128 和第 2 階段 = 512，資料集 = real，NGC™ 容器 = 21.03，

8 個 GPU：T4 (FP32、BS = 8, 2) | V100 PCIE 16GB (FP32、BS = 8, 2) | A30 (TF32、BS = 8, 2) | A100 PCIE 40GB (TF32、BS = 54, 8) | 上述的批次大小分別指第 1 階段和第 2 階段的批次大小

訓練人工智慧模型處理更高一級的挑戰 (如對話式人工智慧)，需要極強大的運算和擴充能力。

若使用精度為 Tensor Float (TF32) 的 NVIDIA A30 Tensor 核心可在完全不變更程式碼的情況下，提供比 NVIDIA T4 高 10 倍的效能，若使用自動混合精度和 FP16，還可進一步將效能提高 2 倍，且記憶體輸送量總共提升 20 倍。與 NVLink^®、第四代 PCIe、NVIDIA 網路和 NVIDIA Magnum IO^™ SDK 搭配使用時，還可以擴充到使用數千個 GPU。

Tensor 核心和 MIG 讓 A30 能夠全天動態應用於工作負載。A30 可在需求達到高峰時用於產生推論，而部分 GPU 可以重新調整用途，在離峰期間快速重新訓練這些相同的模型。

NVIDIA 在人工智慧訓練的業界級基準測試 MLPerf中，創下多項效能記錄。

深入瞭解適用於訓練的 NVIDIA Ampere 架構 ›

深度學習推論

A30 帶來創新功能以最佳化推論工作負載。從 FP64、TF32 到 INT4，加速整個精度範圍。A30 每個 GPU 最多可支援四個 MIG，讓多個網路能夠在安全的硬體分割區中同時運作，且具有服務品質保障 (QoS)。除了 A30 提升的其他推論效能以外，結構化稀疏支援可提供高達 2 倍的效能。

NVIDIA 領先業界的人工智慧效能已在 MLPerf 推論. 中得到證實。A30 結合了 NVIDIA Triton^™ 推論伺服器輕鬆就能大規模部署人工智慧，可為各企業帶來突破性效能。

深入瞭解適用於推論的 NVIDIA Ampere 架構 ›

人工智慧推論：即時對話式人工智慧的輸送量可高達 V100 的 3 倍

BERT 大型推論 (正規化)
輸送量延遲 < 10 毫秒

NVIDIA ® TensorRT®，精度 = INT8，序列長度 = 384，NGC 容器 20.12，延遲 < 10 毫秒，資料集 = 合成 1 個 GPU：A100 PCIE 40GB (BS = 8) | A30 (BS = 4) | V100 SXM2 16GB | T4 (BS = 1)

人工智慧推論—在即時圖像分類中，吞吐量比 T4 高出 3 倍以上

RN50 v1.5 推論 (標準化)
吞吐量延遲小於 7 秒

TensorRT, NGC Container 20.12, Latency <7ms, Dataset=Synthetic, 1x GPU: T4 (BS=31, INT8) | V100 (BS=43, Mixed precision) | A30 (BS=96, INT8) | A100 (BS=174, INT8)

高效能運算

高效能運算：輸送量比 V100 高出 1.1 倍，比 T4 高 8 倍

LAMMPS (正規化)

NVIDIA A30 features double precision (FP64)

資料集：ReaxFF/C、FP64 | 4 個 GPU：T4、V100 PCIE 16GB、A30

為了推進新一代的發現，科學家需要模擬技術以更透徹地瞭解我們周圍的世界。

NVIDIA A30 搭載 FP64 NVIDIA Ampere 架構 Tensor 核心，自 GPU 問世以來，在高效能運算方面達到了最大進展。此外還結合了 24GB 的 GPU 記憶體和每秒 933GB (GB/秒) 的頻寬，讓研究人員可以快速解決雙精度計算的問題。在執行單精度的密集矩陣乘法作業時，高效能運算應用程式還可以利用 TF32，提供更高的輸送量。

藉由結合 FP64 Tensor 核心和 MIG，研究機構便能安全地分割 GPU，讓多名研究人員能夠使用運算資源，確保服務品質保障 (QoS) 並達到最高的 GPU 使用率。部署人工智慧的企業可以在需求達到高峰時使用 A30 的推論功能，然後在離峰期間將相同的運算伺服器重新用於高效能運算和人工智慧訓練工作負載。

瞭解 HPC 應用程式上的最新 GPU 效能 ›

高效能資料分析

資料科學家要能夠分析、視覺化，並將龐大資料集轉換成深入分析。但是，由於這些資料集分散在多個伺服器上，經常無法實行擴充解決方案。

使用 A30 的加速伺服器同時搭載大型 HBM2 記憶體、每秒 933GB (TB/秒) 的記憶體頻寬以及 NVLink—的擴充能力，可提供處理這些工作負載所需的運算能力。NVIDIA 資料中心平台結合了 NVIDIA InfiniBand、NVIDIA Magnum IO 以及 RAPIDS^™ 開放原始碼函式庫套件，包括適用於 Apache Spark 的 RAPIDS 加速器，能夠以前所未有的效能與效率，加速這些龐大的工作負載。

深入瞭解資料分析 ›

高效能資料分析

資料科學家要能夠分析、視覺化，並將龐大資料集轉換成深入分析。但是，由於這些資料集分散在多個伺服器上，經常無法實行擴充解決方案。

使用 A30 的加速伺服器同時搭載大型 HBM2 記憶體、每秒 933GB (TB/秒) 的記憶體頻寬以及 NVLink—的擴充能力，可提供處理這些工作負載所需的運算能力。NVIDIA 資料中心平台結合了 NVIDIA InfiniBand, NVIDIA Magnum IO 以及 RAPIDS^™ 開放原始碼函式庫套件，包括適用於 Apache Spark 的 RAPIDS 加速器，能夠以前所未有的效能與效率，加速這些龐大的工作負載。

深入瞭解資料分析 ›

適用於企業

A30 with MIG maximizes the utilization of GPU-accelerated infrastructure

運用 MIG 的 A30 可將 GPU加速的基礎架構使用率提升到最高。MIG 可將 A30 GPU 安全地分割成多達四個獨立的執行個體，讓多名使用者存取 GPU 加速功能。

MIG 能與 Kubernetes、容器和以監視器為基礎的伺服器虛擬化搭配使用。MIG 讓基礎架構管理員能為每項作業提供適當規模的 GPU 及服務品質保障，將加速運算資源的範圍延伸至每位使用者。

深入瞭解 MIG ›

NVIDIA 人工智慧企業

NVIDIA 人工智慧企業是人工智慧與資料分析軟體的端對端雲端原生套件，經過認證，可在採用 VMware vSphere 的監視器虛擬化基礎架構中的 A30 上執行，因此可以在混合式雲端環境中管理和調整人工智慧工作負載。

深入瞭解 NVIDIA 人工智慧企業 ›

主流 NVIDIA 認證系統

搭載 NVIDIA A30 的 NVIDIA 認證系統™ 將運算加速以及快速、安全的 NVIDIA 網路融入 NVIDIA OEM 合作夥伴所打造及銷售的企業級資料中心伺服器。此計畫讓客戶能夠在單一高效能、符合成本效益且可擴充的基礎架構上，從 NVIDIA NGC 目錄中找出、取得及部署適用於傳統與多元化現代人工智慧應用程式的系統。

深入瞭解 NVIDIA 認證系統 ›

A30 Tensor 核心 GPU 規格

FP64	5.2 兆次浮點運算
FP64 Tensor 核心	10.3 兆次浮點運算
FP32	10.3 兆次浮點運算
TF32 Tensor 核心	82 兆次浮點運算 \| 165 兆次浮點運算*
BFLOAT16 Tensor 核心	165 兆次浮點運算 \| 330 兆次浮點運算*
FP16 Tensor 核心	165 兆次浮點運算 \| 330 兆次浮點運算*
INT8 Tensor 核心	330 兆次浮點運算 \| 661 兆次浮點運算*
INT4 Tensor 核心	661 兆次浮點運算 \| 1321 兆次浮點運算*
媒體引擎	1 個光流加速器 (OFA) 1 個 JPEG 解碼器 (NVJPEG) 4 個影片解碼器 (NVDEC)
GPU 記憶體	24GB HBM2
GPU 記憶體頻寬	每秒 933GB
互連技術	第四代 PCIe：每秒 64GB 第三代 NVLINK：每秒 200GB**
尺寸規格	雙插槽、全高全長尺寸 (FHFL)
最大散熱設計功耗 (TDP)	165W
多執行個體 GPU (MIG)	4 個 GPU 執行個體 @ 每個 6GB 2 個 GPU 執行個體 @ 每個 12GB 1 個 GPU 執行個體 @ 24GB
虛擬化 GPU (vGPU) 軟體支援	的 NVIDIA 人工智慧企業 NVIDIA 虛擬化運算伺服器

* 具有稀疏性
** NVLink 橋接器，最多可支援兩個 GPU

深入探索 NVIDIA Ampere 架構

探索 NVIDIA Ampere 架構的尖端技術。

深入瞭解