NVIDIA HGX 人工智慧 超級電腦

全球頂尖的人工智慧運算平台。

專為人工智慧與高效能運算打造

人工智慧、複雜模擬與大量資料集都需要多個 GPU 和非常快速的互連技術,以及全面加速的軟體堆疊。NVIDIA HGX™ 人工智慧超級運算平台整合 NVIDIA GPU、NVLink®、NVIDIA 網路的強大功能,以及完全最佳化的人工智慧和高效能運算 (HPC) 軟體堆疊,提供最優異的應用程式效能,並推動以最快速度取得分析資訊。

無與倫比的端到端加速運算平台m

NVIDIA HGX H200 以高速互連技術整合了 H200 Tensor 核心 GPU,打造出全球功能最強大的伺服器。可配置最多 8 個 GPU,提供無與倫比的加速功能,且最高提供 1.1 TB 的 GPU 記憶體和每秒 38 TB 的整合記憶體頻寬。與驚人的 32 petaFLOPS 效能相結合,打造世界上最強大的人工智慧與高效能運算加速垂直擴充伺服器平台。

HGX H200 具備先進的網路選項,速度最高可達每秒 400 GB;加上 NVIDIA Quantum-2 InfiniBand 和 Spectrum™-X 乙太網路,帶來最高的人工智慧效能。HGX H200 也搭載了 NVIDIA® BlueField®-3 資料處理器 (DPU),可在超大規模人工智慧雲端中支援雲端網路、組合式儲存空間、零信任安全性和 GPU 運算彈性。

HGX Stack

深度學習訓練:效能與擴充性

Projected performance, subject to change.

GPT-3 175B training NVIDIA A100 Tensor Core GPU cluster: NVIDIA Quantum InfiniBand network, H100 cluster: NVIDIA Quantum-2 InfiniBand network

NVIDIA H200 GPU 配備具有 FP8 精確度的 Transformer Engine,與前一代大型語言模型 GPU 相比,訓練速度提升多達 4 倍。結合第四代 NVIDIA NVLink (每秒提供 900 GB GPU 對 GPU 互連)、第五代 PCIe 和 Magnum IO™ 軟體,可實現從小型企業到大規模統一 GPU 叢集的高效可擴充性。這些基礎架構的進步,再加上 NVIDIA AI Enterprise 軟體套件,讓 HGX H200 成為最強大的端到端人工智慧和高效能運算資料中心平台。

深度學習推論:效能與多功能性

最大模型上的人工智慧推論效能提升高達 30 倍

Megatron 聊天機器人推論 (5,300 億個參數)。

Inference on Megatron 530B parameter model chatbot for input sequence length = 128, output sequence length = 20, A100 cluster: NVIDIA Quantum InfiniBand network; H100 cluster: NVIDIA Quantum-2 InfiniBand network for 2x HGX H100 configurations; 4x HGX A100 vs. 2x HGX H100 for 1 and 1.5 sec; 2x HGX A100 vs. 1x HGX H100 for 2 sec.

人工智慧使用各種不同的神經網路,解決各式各樣的商業挑戰。強大的人工智慧推論加速器,不只能提供最高效能,還能提供加速這些網路所需的各種功能。從資料中心到邊緣,無論客戶選擇部署在何處皆是如此。

H100 進一步延伸 NVIDIA 在推論領域的市場領先地位,與前一代 Megatron 5,300 億個參數的聊天機器人相比,推論速度提升高達 30 倍。

高效能運算效能

高效能運算應用程式提升高達 110 倍效能

Projected performance, subject to change.
HPC MILC- dataset NERSC Apex Medium | HGX H200 4-GPU | dual Sapphire Rapids 8480
HPC Apps- CP2K: dataset H2O-32-RI-dRPA-96points | GROMACS: dataset STMV | ICON: dataset r2b5 | MILC: dataset NERSC Apex Medium | Chroma: dataset HMC Medium | Quantum Espresso: dataset AUSURF112 | 1x H100 | 1x H200.

記憶體頻寬對於高效能運算應用至關重要,因為它可以達成更快的資料傳輸,減少處理處理複雜流程造成的瓶頸。對於模擬、科學研究和人工智慧等記憶體密集型 HPC 應用,H200 更高的記憶體頻寬可確保更有效率地存取和操作資料,與 CPU 相比速度可以快上 110 倍。

運用 NVIDIA Networking 加速 HGX

資料中心成為全新運算單元,網路在擴展整個資料中心的應用程式效能方面扮演關鍵角色。HGX 搭配 NVIDIA Quantum InfiniBand 可提供世界級的效能和效率,確保充分利用運算資源。

對於部署乙太網路的人工智慧雲端資料中心,HGX 最適合搭配 NVIDIA Spectrum-X 網路平台使用,此平台可在每秒 400 GB 的乙太網路上提供最高的人工智慧效能。Spectrum-X 採用 NVIDIA Spectrum™-4 交換器和 BlueField-3 DPU,透過最佳化資源使用率並採取效能隔離,為各種規模的數千個同步人工智慧作業提供一致、可預測的結果。Spectrum-X 可支援先進的雲端多租戶和零信任安全性。 NVIDIA 設計出 Israel-1 作為 NVIDIA Spectrum-X 的參考設計,這是一款超大規模的生成式人工智慧超級電腦,所採用的 Dell PowerEdge XE9680 伺服器是以 NVIDIA HGX™ H100 8 GPU 平台、BlueField-3 DPU 和 Spectrum-4 交換器打造而成。

透過 NVIDIA Networking 連接 HGX H200 或 H100

  NVIDIA Quantum-2 InfiniBand 平台:

Quantum-2 交換器、ConnectX-7 介面卡、BlueField-3 DPU

NVIDIA Spectrum-X 平台:

Spectrum-4 交換器、 BlueField-3 DPU、 Spectrum-X 授權

NVIDIA Spectrum 乙太網路平台:

Spectrum 交換器、ConnectX 介面卡、BlueField DPU

深度學習訓練 最佳 較佳 良好
科學模擬 最佳 較佳 良好
資料分析 最佳 較佳 良好
深度學習推論 最佳 較佳 良好

NVIDIA HGX 規格

NVIDIA HGX 可用於搭載 4 或 8 個 H200、 H100 GPU,或是 4 或 8 個 A100 GPU 的單一基板。以硬體與軟體的強大組合奠定良好基礎,帶來前所未見的人工智慧超級運算效能。

  HGX H200
  4 個 GPU 8 個 GPU
GPU HGX H200 4-GPU HGX H200 8-GPU
尺寸規格 4 個 NVIDIA H200 SXM 8 個 NVIDIA H200 SXM
高效能運算與人工智慧運算 (FP64/TF32/FP16/FP8/INT8) 268TF/4PF/8PF/16PF/16 POPS 535TF/8PF/16PF/32PF/32 POPS
記憶體 高達 564 GB 高達 1.1 TB
NVLink 第四代 第四代
NVSwitch 未提供 第三代
NVSwich GPU 對 GPU 頻寬 未提供 每秒 900 GB
總頻寬調配 每秒 3.6 TB 每秒 7.2 TB
  HGX H100
  4-GPU 8-GPU
GPU HGX H100 4 個 GPU HGX H100 8 個 GPU
尺寸規格 4 個 NVIDIA H100 SXM 8 個 NVIDIA H100 SXM
高效能運算與人工智慧運算 (FP64/TF32/FP16/FP8/INT8) 268TF/4PF/8PF/16PF/16 POPS 535TF/8PF/16PF/32PF/32 POPS
記憶體 最高 320 GB 最高 640 GB
NVLink 第四代 第四代
NVSwitch N/A 第三代
NVLink 交換器 N/A N/A
NVSwich GPU 至 GPU 頻寬 N/A 每秒 900GB
彙總頻寬大小總計 每秒 3.6 TB 每秒 7.2 TB
  HGX A100
  4-GPU 8-GPU
GPUs HGX A100 4-GPU HGX A100 8-GPU
Form factor 4x NVIDIA A100 SXM 8x NVIDIA A100 SXM
HPC and AI compute (FP64/TF32/FP16/INT8) 78TF/1.25PF/2.5PF/5 POPS 156TF/2.5PF/5PF/10 POPS
Memory Up to 320GB Up to 640GB
NVLink Third generation Third generation
NVSwitch N/A Second generation
NVSwitch GPU-to-GPU bandwidth N/A 600GB/s
Total aggregate bandwidth 2.4TB/s 4.8TB/s

深入瞭解 NVIDIA H200 Tensor 核心 GPU