NVIDIA Tensor 核心

前所未見的 HPC 與人工智慧加速效能

Tensor 核心可實現混合精度運算,並可動態調整運算,在加速傳輸量的同時保持精準度。NVIDIA Tensor 核心可為所有工作負載提供新功能,不只讓使用全新革命性精度 Tensor Float 32 (TF32) 的人工智慧訓練獲得 10 倍加速效能,還能讓使用 FP64 的高效能運算 (HPC) 獲得 2.5 倍提升。

革命性深度學習訓練

革命性深度學習訓練

人工智慧模型的複雜度,隨著處理更高難度的挑戰,例如精準的對話式人工智慧和深度推薦系統等,也持續增長。像 Megatron 這樣的對話式人工智慧模型比 ResNet-50 等影像分類模型大上數百倍,也更加複雜。以 FP32 精度訓練這些大型模型,可能需要數天或甚至數週的時間,NVIDIA GPU 中的 Tensor 核心在將精度降低至 TF32 和 FP16 時,仍能提供同量級較高的效能。且可透過 NVIDIA CUDA-X libraries 函式庫在原生深度學習框架中 直接提供支援,自動實作也可大幅縮短訓練至整合的時間,同時維持精準度。

Tensor 核心讓 NVIDIA 在業界首個人工智慧訓練基準 MLPerf 0.6 中勝出,拿下第一。

突破性深度學習推論

突破性深度學習推論

出色的人工智慧推論加速器不僅要提供卓越的效能,還要提供多樣性以便加快各式神經網路,同時要保有可程式化設定功能,讓開發人員能夠組建新的神經網路。在充分使用時提供低延遲度和高傳輸量,是穩固部署推論最重要的效能要求。NVIDIA Tensor 核心提供全方位的精度 (TF32、bfloat16、FP16、INT8 和 INT4),可帶來無與倫比的多樣性和效能。 

Tensor 核心讓 NVIDIA 在業界首個人工智慧推論基準 MLPerf Inference 0.5 中勝出,拿下第一。

先進的高效能運算

先進的高效能運算

HPC 是現代科學的重要支柱。為了找出更新的發現,科學家透過模擬以更加瞭解藥物開發的複雜分子、潛在能源來源的物理,以及大氣資料以更準確預測天氣,並為極端天氣模式做好準備。NVIDIA Tensor 核心提供包含 FP64 的全方位精度,讓科學家透過所需的最高準確度,加快科學運算速度。

NVIDIA 的 HPC SDK 是一個完整的套件﹐包含必要編譯器、函式庫以及在 NVIDIA 平台上開發 HPC 應用程式所需的開發工具。

A100 Tensor 核心

第三代

NVIDIA Tensor 核心技術不只大幅加速人工智慧,也將訓練時間從數週降低到數小時,並且顯著提升推論速度。NVIDIA Ampere 架構提供巨幅效能提升,並提供新的精度可涵蓋整個範圍,包括 TF32、FP64、FP16、INT8 和 INT4,可滿足研究人員的需求,以加速並簡化人工智慧應用,更將 Tensor 核心的強大效能延伸至 HPC。

  • TF32
  • FP64
  • FP16
  • INT8
Tensor Float 32

Tensor Float 32

隨著人工智慧網路和資料集呈指數級擴展,其運算需求也隨之增長。低精度數學帶來了巨大的效能加速,但歷來都需要進行一些代碼變更。A100 則帶來了全新的精度, Tensor Float 32 (TF32) 與 FP32 運作方式相同,但最高可將人工智慧速度提升 20 倍,且無需更改任何程式碼。

FP64 Tensor 核心

FP64 Tensor 核心

A100 將 Tensor 核心的強大功能帶進 HPC,為 HPC 創下自從導入雙精度 GPU 運算以來最大的里程碑。啟用 FP64 精度的矩陣運算後,先前需要雙精度數學運算的一系列 HPC 應用程式與前幾代 GPU 相比,效能和效率提升了 2.5 倍。

FP16 Tensor 核心

FP16 Tensor 核心

A100 Tensor 核心強化了 FP16 的深度學習功能,相較於 NVIDIA 適用於人工智慧的 Volta™,速度提升 2 倍。這不僅顯著提升傳輸量,也縮短了整合時間。

INT8 精度

INT8 精度

INT8 Tensor 核心首先於 NVIDIA Turing 架構中登場,可顯著加快推論傳輸量速度,並大幅提高效率。NVIDIA Ampere 架構中的 INT8 用於生產部署時,可帶來比 Volta 快 10 倍的傳輸量。此多樣性讓核心與邊緣資料中心內的高批次和即時工作負 載可以享有領先業界的高效能。

Turing Tensor 核心

第二代

NVIDIA Turing™ Tensor 核心技術支援多精度運算,能有效率地進行人工智慧推論。Turing Tensor 核心提供了一系列精度,範圍包括 FP32、FP16、INT8 以及 INT4,可用於深度學習訓練和推論,而且與 NVIDIA Pascal™ GPU 相較,效能上有非常顯著的提升。

Turing Tensor 核心
Volta Tensor 核心

Volta Tensor 核心

第一代

NVIDIA Volta™ 中的第一代 Tensor 核心專為深度學習設計,FP16 和 FP32 的混合精度矩陣乘法提供突破性的效能。與 NVIDIA Pascal 相比,訓練的最高兆次浮點運算 (TFLOPS) 效能是 12 倍,而推論的最高兆次浮點運算效能則為 6 倍。此重要能力讓 Volta 的訓練和推論效能比 Pascal 高出 3 倍。

最強大的端對端人工智慧和 HPC 資料中心平台

Tensor 核心是打造完整 NVIDIA 資料中心 解決方案 的重要建置組塊,其整合了硬體、網路、軟體、函式庫、最佳化人工智慧模型和 NGC™ 上的應用程式。這項強大的頂尖端對端人工智慧和 HPC 平台,可以讓研究人員提供可行的結果,並將解決方案大規模部署到生產環境中。

NVIDIA A100 NVIDIA Turing NVIDIA Volta
支援的 Tensor 核心精度 FP64、 TF32、 bfloat16、 FP16、 INT8、 INT4、 INT1 FP16、 INT8、 INT4、 INT1 FP16
支援的 CUDA® 核心精度 FP64、 FP32、 FP16、 bfloat16、 INT8 FP64、 FP32、 FP16、 INT8 FP64、 FP32、 FP16、 INT8

探索 NVIDIA TENSOR 核心

參加研討會以了解在 NVIDIA Tensor 核心 GPU 上達到最佳效能。