NVIDIA Hopper 架構

可大幅提升效能的全球人工智慧基礎架構引擎

新一代工作負載加速運算平台

瞭解 NVIDIA Hopper 架構加速運算的下一步大幅躍進。從小型企業到百萬兆級高效能運算和 1 兆參數人工智慧,Hopper 皆能在每個資料中心安全擴充多種工作負載,讓傑出創新者以人類史上最快速度,完成畢生事業。

準備好採用企業級人工智慧技術嗎?

企業採用人工智慧現已成為主流,企業也需要端對端且可支援人工智慧的基礎架構,以加速進入新紀元。

適用於主流伺服器的 NVIDIA H100 Tensor 核心 GPU 配備 NVIDIA AI Enterprise 軟體套件,能以最高效能簡化人工智慧採用流程。

探索技術突破

Hopper 採用尖端台積電 4 奈米製程,配備超過 800 億個電晶體,具有五項突破創新,提供 NVIDIA H100 Tensor 核心 GPU 動力,並相互結合,相較於上一代 NVIDIA Megatron 530B 聊天機器人 (全球最大的生成語言模型),人工智慧推論快上 30 倍。

Transformer Engine

Transformer Engine

NVIDIA Hopper 架構利用專為加速人工智慧模型訓練而設計的 Transformer Engine,進一步提升 Tensor 核心技術。Hopper Tensor 核心可應用混合式 FP8 和 FP16 精確度,大幅加速 Transformer 的人工智慧運算。與前一代產品相比,Hopper 還將 TF32、FP64、FP16 和 INT8 精確度,即每秒浮點運算次數 (FLOPS) 提高三倍。Hopper Tensor 核心結合 Transformer Engine 和第四代 NVIDIA® NVLink®,大幅提升高效能運算和人工智慧工作負載速度。

NVLink 網路

為了加快業務速度,百億億次級高效能運算和兆參數人工智慧模型,需要伺服器叢集中每個 GPU 之間高速流暢通訊,才能大幅加速。

第四代 NVLink 是一種可擴充的互連技術,讓伺服器間的多 GPU 輸入/輸出 (IO) 達到每秒 900GB 雙向傳輸量,頻寬高達第五代 PCIe 7 倍以上。高頻寬的 NVLink 網路與全新 NVLink Switch 結合後,現在可延伸橫跨不同伺服器。

使用伺服器內的全新 NVSwitch™ 和跨伺服器的 NVLink Switch,最高可連線 256 個 H100 GPU,提供每秒 57.6TB 的全對全頻寬和 20TB 的彙總記憶體,提供每秒半 exaFLOP 的 FP16 人工智慧運算。

NVLink 網路
NVIDIA Confidential Computing

NVIDIA 機密運算

雖然資料靜止在儲存空間中或通過網路傳輸時都經過加密處理,但處理過程中卻沒有受到任何保護。NVIDIA 機密運算藉由保護使用中的資料和應用程式來解決此差距。NVIDIA Hopper 架構引進全球第一個具有機密運算功能的加速運算平台。

有了以硬體為基礎的強大安全功能,使用者就可以在本機、雲端或邊緣執行應用程式,並能夠確信未經授權實體無法檢視或修改應用程式碼與資料。此技術能夠在利用前所未有適用於人工智慧訓練、人工智慧推論和高效能運算工作負載的 H100 GPU 加速能力時,同時保護資料與應用程式的機密與完整性。

第二代多執行個體 GPU

利用多執行個體 GPU (MIG) 能夠將 GPU 分割為多個較小且完全隔離的執行個體,各自擁有其記憶體、快取和運算核心。Hopper 架構藉由在橫跨至多七個 GPU 執行個體的虛擬化環境中,支援多租用戶和多使用者設定,進一步強化多執行個體 GPU,在硬體和虛擬機器監視器層級上,使用機密運算安全隔離每個執行個體。每個多執行個體 GPU 的執行個體專用影片解碼器,能在共用基礎架構上提供安全、高傳輸量的智慧影像分析 (IVA)。管理員可以利用 Hopper 的同步多執行個體 GPU 分析,監控適當大小的 GPU 加速,並最佳化使用者資源配置。

工作負載較低的研究人員,並不需要租用完整的雲端服務供應商執行個體,可以選擇使用多執行個體 GPU 安全隔離一部分 GPU,同時確保其資料在儲存、傳輸和運算時都能保持安全。

Second-Generation MIG
DPX Instructions

DPX 指令

動態程式設計是一項演算法技術,能將複雜的遞迴問題分解為簡單的子問題以利解決。這項技術能儲存子問題的結果,日後便無須重新編譯,進而減少解決指數問題所需的時間,並降低複雜度。動態程式設計獲得廣泛應用於各個使用案例。例如,Floyd-Warshall 是一種路線最佳化演算法,可用於為運送和運送車隊繪製最短路線圖。Smith-Waterman 演算法能應用於 DNA 序列比對和蛋白質折疊。

Hopper 的 DPX 指令能加速動態程式設計演算法,與 CPU 相比能提升 40 倍,與 NVIDIA Ampere 架構 GPU 相比則提升 7 倍。無論是疾病診斷,或是路線最佳化,甚至是圖形分析都能大幅縮短所需時間。

初步規格可能隨時變更
HGX H100 4 GPU 對決雙插槽 32 核心 IceLake 的 DPX 指令集比較

深入探索 NVIDIA Hopper 架構