NVIDIA Tensor 核心

前所未見的高效能運算與人工智慧加速效能

Tensor 核心可實現混合精度運算,並可動態調整計算,在加速傳輸量的同時維持精準度。最新一代的 Tensor 核心能夠以前所未見的速度,處理更多樣化的人工智慧與高效能運算 (HPC) 工作。NVIDIA Tensor 核心賦予所有工作負載全新的功能,包括 Transformer 網路訓練速度增加 6 倍,以及所有應用程式的效能提升 3 倍。

革命性的人工智慧訓練

革命性的人工智慧訓練

隨著人工智慧模型處理更高一級的挑戰 (如對話式人工智慧),其複雜度也急遽增長。以 FP32 訓練大型模型,可能需要數週或甚至數月的時間,NVIDIA Tensor 核心在將精度降低至 Transformer 引擎的 8 位元浮點 (FP8)、Tensor Float 32 (TF32) 以及 FP16 時,仍能大幅提升效能。且可透過 CUDA-X 函式庫在原生深度學習框架中直接支援,自動實作也可大幅縮短訓練至整合的時間,同時維持精準度。

Tensor 核心讓 NVIDIA 在業界訓練基準 MLPerf 中勝出,拿下第一。

突破性的人工智慧推論

突破性的人工智慧推論

出色的人工智慧推論加速器不僅要提供卓越的效能,還要提供多樣性以便加快各式神經網路,同時要保有可程式化設定功能,讓開發人員能夠組建新的神經網路。在充分使用時提供低延遲度和高傳輸量,是穩固部署推論最重要的效能要求。NVIDIA Tensor 核心提供全方位的精度 (TF32、bfloat16、FP16、FP8 和 INT8),可帶來無與倫比的多樣性和效能。 

Tensor 核心讓 NVIDIA 在業界推論基準 MLPerf 中勝出,拿下第一。

進階高效能運算

進階高效能運算

高效能運算是現代科學的重要支柱。為了找出更新的發現,科學家透過模擬來更加瞭解藥物開發過程的複雜分子、潛在能源來源的物理特性,以及大氣資料,以更準確預測天氣,並為極端天氣模式做好準備。NVIDIA Tensor 核心提供包含 FP64 的全方位精度,讓科學家透過所需的最高準確度,加快科學運算速度。

高效能運算 SDK 提供必要編譯器、函式庫以及在 NVIDIA 平台上開發高效能運算應用程式所需的開發工具。

NVIDIA H100 Tensor 核心

第四代

自從採用 Tensor 核心技術後,NVIDIA GPU 將最佳效能提升 60 倍,加速了人工智慧和高效能運算的普及速度。NVIDIA Hopper™ 架構運用全新的 8 位元浮點精度 (FP8) 技術,透過 Transformer Engine 進一步開發第四代 Tensor 核心,為一兆參數模型訓練提供比 FP16 高出 6 倍的效能。Hopper Tensor 核心結合效能提升 3 倍的 TF32、FP64、FP16 和 INT8 精度,為所有工作負載提供最高速度。

  • FP8
  • TF32
  • FP64
  • FP16
  • INT8
FP8 Tensor 核心

FP8

由於需要大量數學運算,Transformer 人工智慧網路的訓練時間會長達數個月。Hopper 的全新 FP8 經度 在 Ampere 上可提供比 FP16 高出 6 倍的效能。Transformer Engine 採用 FP8;這是一項專為加速 Transformer 模型訓練而設計的 Hopper Tensor 核心技術。Hopper Tensor 核心可應用混合式 FP8 和 FP16 精度格式,大幅加速變壓器訓練的人工智慧計算,同時維持精準度。FP8 還可大幅提升大型語言模型推論的速度,相較於 Ampere,效能最高可提升 30 倍。

Tensor Float 32

TF32

隨著人工智慧網路和資料集呈指數級擴充,其運算需求也隨之增長。低精度數學帶來了巨大的效能加速,但歷來都需要變更一些程式碼。H100 支援 TF32 精準度,運作方式與 FP32 類似,而且相較於 NVIDIA Ampere™ Tensor 核心,無需更改任何程式碼,即可將人工智慧速度提升至最高 3 倍。

FP64 Tensor 核心

FP64

H100 持續為高效能運算提供 Tensor 核心功能,效能更勝以往。H100 的 FP64 效能比前一代增加 3 倍,進一步提升需要雙精度數學運算的一系列高效能運算應用程式速度。

FP16 Tensor 核心

FP16

H100 Tensor 核心提升 FP16,可用於深度學習,相較於 NVIDIA Ampere 架構的 Tensor 核心,人工智慧速度提升 3 倍。這不僅顯著提升傳輸量,也縮短了整合時間。

INT8

INT8

INT8 Tensor 核心首先於 NVIDIA Turing™ 中登場,可顯著加速推論輸送量,並大幅提高效率。NVIDIA Hopper 架構中的 INT8 用於生產部署時,可帶來比前一代 Tensor 核心快 3 倍的輸送量。此多樣性讓核心與邊緣資料中心內的高批次和即時工作負載都可以享有領先業界的高效能。 

NVIDIA Ampere 架構 Tensor 核心

NVIDIA Ampere 架構 Tensor 核心

第三代

NVIDIA Ampere 架構 Tensor 核心以先前的創新技術為基礎,但採用全新精度標準 TF32 與 FP64,以加速並簡化人工智慧應用,更將 Tensor 核心效能延伸至高效能運算。而這些第三代 Tensor 核心也支援 bfloat16、INT8 與 INT4,能為人工智慧訓練和推論創造極致多功能的加速器。

NVIDIA Turing Tensor 核心

第二代

NVIDIA Turing Tensor 核心技術支援多精度運算,能有效率地進行人工智慧推論。Turing Tensor 核心提供了一系列精度,範圍包括 FP32、FP16、INT8 以及 INT4,可用於深度學習訓練和推論,而且與 NVIDIA Pascal GPU 相較,效能上有非常顯著的提升。

Turing Tensor 核心
Volta Tensor 核心

NVIDIA Volta Tensor 核心

第一代

NVIDIA Volta 中的第一代 Tensor 核心專為深度學習設計,FP16 和 FP32 的混合精度矩陣乘法提供突破性的效能。與 NVIDIA Pascal 相比,訓練的最高兆次浮點運算 (TFLOPS) 效能提升為 12 倍,而推論的最高兆次浮點運算效能則提升為 6 倍。此重要能力讓 Volta 的訓練和推論效能加速,皆比 Pascal 高出 3 倍。

最強大的端對端人工智慧和高效能運算資料中心平台

完整的 NVIDIA 資料中心解決方案整合了硬體、網路、軟體、函式庫,以及 NVIDIA NGC 目錄上的最佳化人工智慧模型和應用程式,而 Tensor 核心則是此完整解決方案的重要基石。此強大的端對端人工智慧和高效能運算平台,可以讓研究人員提供符合真實世界情況的結果,並將解決方案大規模部署到生產環境中。

Hopper Ampere Turing Volta
支援的 Tensor 核心精度 FP64、TF32、bfloat16、FP16、FP8、INT8 FP64、TF32、bfloat16、FP16、INT8、INT4、INT1 FP16、INT8、INT4、INT1 FP16
支援的 CUDA® 核心精度 FP64、FP32、FP16、bfloat16、INT8 FP64、FP32、FP16、bfloat16、INT8 FP64、FP32、FP16、INT8 FP64、FP32、FP16、INT8

 目前僅是初步規格,之後將有可能更新

深入探索 NVIDIA Hopper 架構