Tensor 核心可實現混合精度運算,並可動態調整運算,在加速傳輸量的同時保持精準度,並提升安全性。最新一代的 Tensor 核心能夠以前所未見的速度,處理多樣化的 AI 與高效能運算 (HPC) 工作。從訓練兆級參數 AI 模型到實現突破性的推論效能,NVIDIA Tensor 核心都能加速現代 AI 工廠的所有工作負載。
NVIDIA Rubin 平台引進增強的第五代 Tensor 核心。 專為加速新式 AI 工廠而設計,可最佳化對 4 位元窄精度 NVFP4 與 FP8 運算的支援。該平台將這些 Tensor 核心與 NVIDIA Rubin 串流多處理器中擴充的特殊功能單元緊密整合,大幅加速注意力機制與稀疏運算路徑,在不影響模型準確度的同時提升算術密度與能源效率。
NVIDIA Rubin GPU 驅動新一代的代理式 AI,搭載 50 petaFLOPS Transformer Engine,運用第五代 Tensor 核心與 NVFP4 精度將推論效率最大化。這項架構的躍進可在 NVIDIA Vera Rubin NVL72 系統中無縫擴充至 3,600 PFLOPS 的 NVFP4 推論,提供即時推理模型所需的龐大傳輸量。
NVIDIA Blackwell 與 Rubin 架構可透過分解輸入值,並利用高傳輸量但精度較低的 Tensor 核心,模擬 FP32 與 FP64 矩陣運算。 這種方法可大幅提升效能與能源效率,同時達到甚至超過原生 IEEE754 的準確度。運用複雜的軟體驅動演算法與定點運算,模擬提供一種受控且高效能的替代方案,可取代傳統的高精度硬體執行方法。
相較於前一代 NVIDIA Hopper™,NVIDIA Blackwell 架構可在 GPT-MoE-1.8T 等大規模模型中提供 30 倍的加速能力。第五代 Tensor 核心讓效能提升成為可能。 NVIDIA Blackwell Tensor 核心加入全新精確度,包括社群定義的微縮放格式,提供更佳的精確度,且能輕易取代更高精確度的格式。
隨著生成式 AI 模型的規模和複雜度呈爆炸性成長,提升訓練和推論效能變得至關重要。為了滿足這些運算需求,NVIDIA Blackwell Tensor 核心支援全新的量化格式與精度,包括社群定義的微縮放格式。
第二代 Transformer Engine 採用自訂的 NVIDIA Blackwell Tensor 核心技術,並結合 NVIDIA® TensorRT™-LLM 和 NeMo™ 框架創新技術,可加速大型語言模型 (LLM) 和專家混合 (MoE) 模型的推論與訓練。Transformer Engine 採用 Tensor 核心的 FP4 精度,將效能與效率提升一倍,同時還能為目前與新一代 MoE 模型維持高準確度。
Transformer Engine 致力透過即時效能讓現今的 LLM 普及化。企業可以部署最先進的生成式人工智慧模型,以經濟實惠的方式優化業務流程。
完整的 NVIDIA 資料中心 解決方案整合了硬體、網路、軟體、函式庫,以及 NVIDIA NGC™ 目錄中的最佳化 AI 模型和應用程式,而 Tensor 核心則是這項完整解決方案的重要基石。這項超強的頂尖端對端人工智慧和高效能運算平台,可以讓研究人員提供可行的結果,並將解決方案大規模部署到生產環境中。
| NVIDIA Rubin | NVIDIA Blackwell | |
|---|---|---|
| 支援的 Tensor 核心精度 | NVFP4、FP64、TF32、BF16、FP16、FP8/FP6、INT8、 | NVFP4、FP64、TF32、BF16、FP16、FP8/FP6、INT8、 |
| 支援的 CUDA® 核心精度 | FP64、FP32、INT32、FP16、BF16 | FP64、FP32、FP16、BF16 |
*此為初步規格,之後可能會有所變動。
深入瞭解 NVIDIA Vera Rubin 平台。