NVIDIA TENSOR 核心

新一代的深度學習

驅動 NVIDIA® Tesla® GPU 的 Tensor 核心,提供突破性人工智慧效能的革命性技術。Tensor 核心能加速大型矩陣運算,也就是人工智慧核心技術,並在單一運算中執行混合精度矩陣乘法和累加計算。NVIDIA GPU 中數百個同時運作的 Tensor 核心能大幅提升輸送量與效率。

NVIDIA T4 採用 Turing Tensor 核心

突破性推論效率


NVIDIA T4 採用 Turing Tensor 核心

Tesla T4 帶來 NVIDIA Turing Tensor 核心技術與多精度運算,能進行全球效率最高的人工智慧推論。Turing Tensor 核心提供各精準度的推論,包含 FP32、FP16、INT8 與 INT4,效能與 NVIDIA Pascal® GPU 相比是一大躍進。

最有效率的深度學習平台

T4 為 FP32、FP16、INT8 與 INT4 以及進行推論的二元精度,提供突破性的深度學習訓練效能。T4 具備 80 兆次運算 (TOPS) 的 INT8 和 160 兆次運算,擁有全球最高的推論效能。與 CPU 相比,不僅效能提高 40 倍,而且只消耗 60% 的電力,只需 75 瓦 (W) 就足夠,是邊緣端水平擴充伺服器的理想解決方案。

T4 INFERENCE PERFORMANCE

Resnet50

DeepSpeech2

GNMT

採用 Volta Tensor 核心的 NVIDIA V100 GPU

全球最大的深度學習輸送量


採用 Volta Tensor 核心的 NVIDIA V100 GPU

Volta 中的第一代 Tensor 核心專為深度學習設計,FP16 和 FP32 的混合精度矩陣乘法提供突破性的效能。與前一代的 NVIDIA Pascal™ 相比,訓練的最高兆次浮點運算 (TFLOPS) 效能是 12 倍,而推論的最高兆次浮點運算效能則為 6 倍。此重要能力讓 Volta 的訓練和推論效能比 Pascal 高出 3 倍。

每個 Tesla V100 的 640 個 Tensor 核心中都有一個 4x4 矩陣,它們的相關資料路徑都經過客製化設計,能以高節能方式支援全球最快速浮點數運算的輸送量。

突破性的訓練和推論效能

Deep Learning Training in Less Than a Workday

 Volta 配備 640 個 Tensor 核心,每個核心都以每時脈週期 64 個浮點數融合乘加運算 (Fused-Multiply-Add,FMA) 的速率運作。這為訓練和推論應用作業提供最高 125 兆次浮點運算的效能,並且讓開發人員能夠以結合 FP16 運算與 FP32 累積的混合精準度執行深度學習訓練,使速度比前一代快 3 倍並趨近預期的網路精準度。效能提高 3 倍是 Tensor 核心技術的重要創舉。從現在起,只需幾小時的時間就能完成深度學習。

27X Higher Throughput than CPU Server on Deep Learning Inference

Tesla V100 的推論效能也比前一代快 3 倍以上,並且比 CPU 伺服器快 47 倍。因為有 NVIDIA TensorRT™ 可程控推論加速器,這些速度提升大多歸功於 Tensor 核心利用混合精度加速推論工作。

運算效能大躍進

閱讀關於 Tensor 核心和 NVIDIA Volta 架構的白皮書