NVIDIA Hopper 架構

可大幅提升效能的全球人工智慧基礎架構引擎

新一代工作負載加速運算平台

瞭解 NVIDIA Hopper 架構加速運算的下一步大幅躍進。從小型企業到百萬兆級高效能運算和 1 兆參數人工智慧,Hopper 皆能在每個資料中心安全擴充多種工作負載,讓傑出創新者以人類史上最快速度,完成畢生事業。

準備好採用企業級人工智慧技術嗎?

企業採用人工智慧現已成為主流,企業也需要端對端且可支援人工智慧的基礎架構,以加速進入新紀元。

適用於主流伺服器的 NVIDIA H100 Tensor 核心 GPU 配備 NVIDIA AI Enterprise 軟體套件,能以最高效能簡化人工智慧採用流程。

探索技術突破

Hopper 採用尖端台積電 4 奈米製程,配備超過 800 億個電晶體,具有五項突破性創新技術,是 NVIDIA H200H100 Tensor 核心 GPU的動力所在,相互結合之下,相較於上一代 NVIDIA Megatron 530B 聊天機器人 (全球最大的生成語言模型),人工智慧推論的速度提升 30 倍。

Transformer Engine

Transformer Engine

NVIDIA Hopper 架構利用專為加速人工智慧模型訓練而設計的 Transformer Engine,進一步提升 Tensor 核心技術。Hopper Tensor 核心可應用混合式 FP8 和 FP16 精確度,大幅加速 Transformer 的人工智慧運算。與前一代產品相比,Hopper 還將 TF32、FP64、FP16 和 INT8 精確度,即每秒浮點運算次數 (FLOPS) 提高三倍。Hopper Tensor 核心結合 Transformer Engine 和第四代 NVIDIA® NVLink®,大幅提升高效能運算和人工智慧工作負載速度。

NVLink、NVSwitch 和 NVLink 交換器系統

為了加快業務速度,百萬兆級高效能運算和兆參數人工智慧模型,需要伺服器叢集中每個 GPU 之間高速流暢通訊,才能大幅加速。

第四代 NVLink 可擴充 NVIDIA DGX™ 與 HGX™ 伺服器的多 GPU 輸入和輸出 (IO),達到每個 GPU 每秒 900GB 的雙向傳輸量,頻寬比 PCIe Gen5 提升 7 倍以上。

第三代 NVIDIA NVSwitch™ 支援可擴展分層聚合和縮減協定 (SHARP)™ 網路內運算,以前僅在 Infiniband 上可用;並且與前一代的 A100 Tensor 核心 GPU 系統相比,可在 8 個 H200 或 H100 GPU 伺服器上提升 2 倍的 all-reduce 吞吐量。

採用 NVLink 交換器系統的 DGX GH200 系統,可支援多達 256 個連線 H200 的叢集,並提供每秒 57.6 TB 的全頻寬。

NVLink Switch System
NVIDIA Confidential Computing

NVIDIA 機密運算

雖然資料靜止在儲存空間中或通過網路傳輸時都經過加密處理,但處理過程中卻沒有受到任何保護。NVIDIA 機密運算藉由保護使用中的資料和應用程式來解決此差距。NVIDIA Hopper 架構引進全球第一個具有機密運算功能的加速運算平台。

有了以硬體為基礎的強大安全功能,使用者可在本機、雲端或邊緣執行應用程式,並確信未經授權的實體無法檢視或修改應用程式碼與資料。這可以保護資料和應用程式的機密性和完整性,同時為人工智慧訓練、人工智慧推理和 HPC 工作負載提供 H200 和 H100 GPU 前所未有的加速。

第二代多執行個體 GPU

利用多執行個體 GPU (MIG) 能夠將 GPU 分割為多個較小且完全隔離的執行個體,各自擁有其記憶體、快取和運算核心。Hopper 架構藉由在橫跨至多七個 GPU 執行個體的虛擬化環境中,支援多租用戶和多使用者設定,進一步強化多執行個體 GPU,在硬體和虛擬機器監視器層級上,使用機密運算安全隔離每個執行個體。每個多執行個體 GPU 的執行個體專用影片解碼器,能在共用基礎架構上提供安全、高傳輸量的智慧影像分析 (IVA)。管理員可以利用 Hopper 的同步多執行個體 GPU 分析,監控適當大小的 GPU 加速,並最佳化使用者資源配置。

工作負載較低的研究人員,並不需要租用完整的雲端服務供應商執行個體,可以選擇使用多執行個體 GPU 安全隔離一部分 GPU,同時確保其資料在儲存、傳輸和運算時都能保持安全。

Second-Generation MIG
DPX Instructions

DPX 指令

動態程式設計是一項演算法技術,能將複雜的遞迴問題分解為簡單的子問題以利解決。這項技術能儲存子問題的結果,日後便無須重新編譯,進而減少解決指數問題所需的時間,並降低複雜度。動態程式設計獲得廣泛應用於各個使用案例。例如,Floyd-Warshall 是一種路線最佳化演算法,可用於為運送和運送車隊繪製最短路線圖。Smith-Waterman 演算法能應用於 DNA 序列比對和蛋白質折疊。

Hopper 的 DPX 指令能加速動態程式設計演算法,與 CPU 相比能提升 40 倍,與 NVIDIA Ampere 架構 GPU 相比則提升 7 倍。無論是疾病診斷,或是路線最佳化,甚至是圖形分析都能大幅縮短所需時間。

初步規格可能隨時變更
HGX H100 4 GPU 對決雙插槽 32 核心 IceLake 的 DPX 指令集比較

深入探索 NVIDIA Hopper 架構