NVIDIA Ampere 架構

全球最高效能彈性資料中心的核心

現代資料中心內的 人工智慧與 HPC 核心

科學家、研究人員和工程師就像我們時代的達文西和愛因斯坦,他們致力透過人工智慧和高效能運算 (HPC) 解決全球最重要的科學、產業與巨量資料難題。同時企業甚至是整個產業都在尋求開發人工智慧的效能,以透過本機或雲端內的龐大資料,獲取新的洞見。專為彈性運算時代打造的 NVIDIA Ampere 架構將引領新一波大躍進,為各種規模需求提供無與倫比的加速效能,並幫助創新先驅實現畢生志業。

突破性創新

NVIDIA Ampere 以 540 億個電晶體打造,是有史以來最大的 7 奈米 (nm) 晶片,包含五項關鍵的突破性創新。 

第三代 Tensor 核心

第三代 Tensor 核心

NVIDIA Tensor 核心技術最先運用 在 NVIDIA Volta™ 架構上,不只大幅加速人工智慧,也將訓練時間從數週降至數小時,同時顯著提升推論速度。 NVIDIA Ampere 架構以這些創新技術為基礎,採用全新精度標準 Tensor Float (TF32) 與 64 位元浮點 (FP64),以加速並簡化人工智慧應用,同時將 Tensor 核心效能拓展至 HPC。

TF32 與 FP32 運作方式相同,無需更改任何程式碼即可將人工智慧速度提升至最高 10 倍。透過 NVIDIA 自動混合精度運算,研究人員只要多加一行程式碼就能將效能提升 2 倍而 NVIDIA A100 Tensor 核心 GPU 中的 Tensor 核心透過支援 bfloat16、INT8 與 INT4,能為人工智慧訓練和推論創造極致多元的加速器。A100 不只將強大的 Tensor 核心導入 HPC,也支援完整矩陣運算、通過 IEEE 認證,並使用 FP64 精度。

多執行個體 GPU (MIG)

每個人工智慧與 HPC 應用都能受益於加速,但並非所有應用都需要使用 A100 GPU 的完整效能。MIG 讓每個 A100 最多能分隔成七個執行 GPU 個體,各自在硬體中完全獨立且受保護,且具備個別的高頻寬記憶體、快取和運算核心。現在不論大小,開發人員可為所有應用提供突破性加速,並獲得服務品質保障。IT 管理人員可為最佳利用率提供規模適中的 GPU 加速,並將橫跨實體與虛擬環境的存取權限擴展給每個使用者和應用。

多執行個體 GPU (MIG)

結構性稀疏

現代人工智慧網路相當龐大且越來越大,有數百萬、甚至數十億個參數。精準預測與推論不需要用到所有參數,而有些參數可以轉換為零,以確保模型變「稀疏」的同時不會犧牲準確性 A100 的 Tensor 核心最高可以將稀疏模型的效能提高 2 倍。將模型稀疏化對於人工智慧推論有益,同時也能改善模型訓練效能。 

結構性稀疏
更聰明、快速的記憶體

更聰明、快速的記憶體

A100 為資料中心提供大量運算效能。為充分運用運算引擎,A100 具備領先同級產品的每秒 1.5 TB (TB/秒) 記憶體頻寬,比上一代產品高出 67%。此外,A100 的晶片記憶體也顯著增加,具備 40 MB 的 2 級快取,為上一代產品的 7 倍,可將運算效能最大化。

邊緣聚合加速

NVIDIA EGX™ 聚合加速器結合 NVIDIA Ampere 架構和 NVIDIA Mellanox 的 ConnectX-6 Dx SmartNIC,帶來了前所未有的運算和網路加速能力,能夠處理邊緣端產生的龐大資料量。Mellanox SmartNIC 包含安全卸載,以高達每秒 200 GB (Gb/秒) 的線路速率進行解密,GPUDirect™ 則可將影片畫面直接傳輸到 GPU 記憶體進行人工智慧處理。透過 EGX 聚合加速器,企業能以更安全且高效率的方式加速邊緣人工智慧的部署。

邊緣整合加速

一窺 NVIDIA Ampere 架構

加入此線上研討會,瞭解 NVIDIA Ampere 架構的最新消息,以及在 NVIDIA A100 GPU 的實作情況。