NVIDIA Tensor 核心

前所未見的加速，適用於代理式 AI。

Tensor 核心可實現混合精度運算，並可動態調整運算，在加速傳輸量的同時保持精準度，並提升安全性。最新一代的 Tensor 核心能夠以前所未見的速度，處理多樣化的 AI 與高效能運算 (HPC) 工作。從訓練兆級參數 AI 模型到實現突破性的推論效能，NVIDIA Tensor 核心都能加速現代 AI 工廠的所有工作負載。

簡介
NVIDIA Rubin
NVIDIA Blackwell
規格

簡介
NVIDIA Rubin
NVIDIA Blackwell
規格

革命性的人工智慧訓練

以 16 位元精度訓練多兆參數的生成式 AI 模型，可能需要數月時間。 NVIDIA Tensor 核心採用 NVFP4 這種突破性的格式，可提供 4 位元格式的速度與效率，以及 16 位元準確度。 NVFP4 在 Transformer Engine 支援下，利用微資料塊縮放技術，大幅提升傳輸量並減少記憶體佔用。這項創新技術透過 CUDA-X™ 函式庫支援原生框架，大幅縮短新一代尖端模型訓練到收斂的時間。

突破性推論

在高傳輸量下實現低延遲，同時將利用率最大化，是可靠推論部署的關鍵。NVIDIA Rubin 平台搭載增強的 Transformer Engine，透過第五代 Tensor 核心提升 NVFP4 效能。同時能保持準確度，實現最高 50 petaFLOPS (PFLOPS) 的 NVFP4 推論。 Transformer Engine 與 NVIDIA Blackwell 完全相容，確保升級順暢無礙，因此先前最佳化的程式碼可輕鬆轉移至 NVIDIA Rubin。

Tensor 核心讓 NVIDIA 贏得了推論方面的業界 MLPerf 基準測試。

進階高效能運算

高效能運算是現代科學的重要支柱。為了開啟新一代的發現，科學家利用模擬來更深入瞭解藥物研發中的複雜分子，利用物理學來識別潛在能源，並利用大氣資料來更準確地預測並因應極端天氣模式。NVIDIA Tensor 核心提供全方位的精度 (包括 FP64 與 FP32)，以所需的最高準確度加速科學運算。

高效能運算 SDK 提供必要編譯器、函式庫以及在 NVIDIA 平台上開發高效能運算應用程式所需的開發工具。

NVIDIA Rubin Tensor 核心

增強型第五代

NVIDIA Rubin 平台引進增強的第五代 Tensor 核心。專為加速新式 AI 工廠而設計，可最佳化對 4 位元窄精度 NVFP4 與 FP8 運算的支援。該平台將這些 Tensor 核心與 NVIDIA Rubin 串流多處理器中擴充的特殊功能單元緊密整合，大幅加速注意力機制與稀疏運算路徑，在不影響模型準確度的同時提升算術密度與能源效率。

50 PFLOPS Transformer Engine
模擬

50 PFLOPS Transformer Engine

NVIDIA Rubin GPU 驅動新一代的代理式 AI，搭載 50 petaFLOPS Transformer Engine，運用第五代 Tensor 核心與 NVFP4 精度將推論效率最大化。這項架構的躍進可在 NVIDIA Vera Rubin NVL72 系統中無縫擴充至 3,600 PFLOPS 的 NVFP4 推論，提供即時推理模型所需的龐大傳輸量。

模擬

NVIDIA Blackwell 與 Rubin 架構可透過分解輸入值，並利用高傳輸量但精度較低的 Tensor 核心，模擬 FP32 與 FP64 矩陣運算。這種方法可大幅提升效能與能源效率，同時達到甚至超過原生 IEEE754 的準確度。運用複雜的軟體驅動演算法與定點運算，模擬提供一種受控且高效能的替代方案，可取代傳統的高精度硬體執行方法。

NVIDIA Blackwell Tensor 核心

第五代

相較於前一代 NVIDIA Hopper™，NVIDIA Blackwell 架構可在 GPT-MoE-1.8T 等大規模模型中提供 30 倍的加速能力。第五代 Tensor 核心讓效能提升成為可能。 NVIDIA Blackwell Tensor 核心加入全新精確度，包括社群定義的微縮放格式，提供更佳的精確度，且能輕易取代更高精確度的格式。

深入瞭解 NVIDIA Blackwell 架構

全新精度
Transformer Engine

全新精度格式

隨著生成式 AI 模型的規模和複雜度呈爆炸性成長，提升訓練和推論效能變得至關重要。為了滿足這些運算需求，NVIDIA Blackwell Tensor 核心支援全新的量化格式與精度，包括社群定義的微縮放格式。

第二代 Transformer Engine

第二代 Transformer Engine 採用自訂的 NVIDIA Blackwell Tensor 核心技術，並結合 NVIDIA® TensorRT™-LLM 和 NeMo™ 框架創新技術，可加速大型語言模型 (LLM) 和專家混合 (MoE) 模型的推論與訓練。Transformer Engine 採用 Tensor 核心的 FP4 精度，將效能與效率提升一倍，同時還能為目前與新一代 MoE 模型維持高準確度。

Transformer Engine 致力透過即時效能讓現今的 LLM 普及化。企業可以部署最先進的生成式人工智慧模型，以經濟實惠的方式優化業務流程。

最強大的端對端人工智慧和高效能運算資料中心平台

完整的 NVIDIA 資料中心解決方案整合了硬體、網路、軟體、函式庫，以及 NVIDIA NGC™ 目錄中的最佳化 AI 模型和應用程式，而 Tensor 核心則是這項完整解決方案的重要基石。這項超強的頂尖端對端人工智慧和高效能運算平台，可以讓研究人員提供可行的結果，並將解決方案大規模部署到生產環境中。

	NVIDIA Rubin	NVIDIA Blackwell
支援的 Tensor 核心精度	NVFP4、FP64、TF32、BF16、FP16、FP8/FP6、INT8、	NVFP4、FP64、TF32、BF16、FP16、FP8/FP6、INT8、
支援的 CUDA^® 核心精度	FP64、FP32、INT32、FP16、BF16	FP64、FP32、FP16、BF16

*此為初步規格，之後可能會有所變動。

深入瞭解 NVIDIA Vera Rubin 平台。

深入瞭解