NVIDIA H100 Tensor 核心 GPU

NVIDIA H100 Tensor 核心 GPU

適用於每個資料中心,提供卓越的效能、擴充性與安全性。

加速運算數量級躍進

利用 NVIDIA H100 Tensor 核心 GPU,提供所有工作負載前所未有的效能、可擴充性和安全性。H100 採用以 NVIDIA Hopper™ 架構為基礎的突破性創新,可加速大型語言模型 (LLM) 速度,比前一代快上 30 倍,提供領先業界的對話式人工智慧。H100 也採用了專門的 Transformer 引擎,解決兆級參數的語言模型。

安全加速從企業級到百萬兆級的工作負載

GPT-3 上的人工智慧訓練速度加快高達 4 倍

此為預計效能,之後將有可能更新。GPT-3 175B 訓練的 A100 叢集:HDR IB 網路,H100 叢集:NDR IB 網路 | 混合專家 (MoE) 訓練 Transformer Switch-XX L 變體,在 1T 權杖資料集上具有 395B 參數,A100 叢集:HDR IB 網路、H100 叢集:帶有 NVLink 切換系統的 NDR IB 網路 (如所示)。

顛覆性人工智慧訓練

H100 配備第四代 Tensor 核心和具有 FP8 精確度的 Transformer Engine,與前一代 GPT-3 (175B) 相比,訓練速度高達 4 倍。結合第四代 NVlink (每秒提供 900 GB GPU 對 GPU 互連)、NDR Quantum-2 InfiniBand 網路 (加速所有 GPU 跨節點集體通訊能力)、第五代 PCIe 及NVIDIA Magnum IO™ 軟體,提供小型企業到大規模統一 GPU 叢集高效率可擴充性。

部署資料中心規模的 H100 GPU 可提供優異效能,並且讓所有研究人員均能使用新一代百萬兆級高效能運算 (HPC) 和一兆參數人工智慧。

即時深度學習推論

人工智慧使用各種不同的神經網路,解決各式各樣的商業挑戰。強大的人工智慧推論加速器,不只能提供最高效能,還能提供加速這些網路的各種功能。

H100 解決方案擴展 NVIDIA 在推論領域的市場領先地位,並創造多項進展,包含加速推理速度達高達 30 倍,並實現最低延遲時間。第四代 Tensor 核心加速所有精確度,包括 FP64、TF32、FP32、FP16、INT8,以及目前的 FP8,能夠減少記憶體使用量並提升效能,且仍然能夠維持大型語言模型的正確度。

在最大模型上獲得高達 30 倍的人工智慧推論效能。

Megatron 聊天機器人推論 (5,300 億個參數)

此為預計效能,之後將有可能更新。對以 Megatron 高達 5300 億個參數模型為基礎的聊天機器人進行推論,輸入序列長度為 128、輸出序列長度為 20 | A100 叢集:HDR IB 網路 | H100 叢集:NVLINK 交換器系統、NDR IB

為高效能運算應用程式提升高達 7 倍效能

此為預計效能,之後將有可能更新。3D FFT (4K^3) 輸送量 | A100 叢集:HDR IB 網路 | H100 叢集:NVLink Switch 系統、NDR IB | 基因體定序 (Smith-Waterman) | 1 個 A100 | 1 個 H100

百萬兆級高效能運算

NVIDIA 資料中心平台持續提供超越摩爾定律的效能提升。H100 全新突破性人工智慧功能,進一步放大高效能運算搭配人工智慧的強大功能,加速科學家和研究人員探索時間,解決全球最重要的挑戰。

H100 將雙精確度 Tensor 核心的每秒浮點運算次數 (FLOPS) 提高為 3 倍,提供高效能運算每秒 60 兆次浮點運算的 FP64 運算。融合人工智慧的高效能運算應用程式,也能利用 H100 的 TF32 精確度,達到單精確度矩陣乘法運算每秒 1 petaFLOP 浮點運算輸送量,而且無須變更程式碼。

H100 也配備全新 DPX 指令,提供效能比 A100 高出 7 倍且速度比 CPU 高出 40 倍的動態規劃演算法,例如,用於 DNA 序列比對的 Smith-Waterman 和用於蛋白質結構預測的蛋白質比對。

DPX 指令比較 NVIDIA HGX™ H100 4-GPU 與雙插槽 32 核心 IceLake

加速資料分析

人工智慧應用程式開發時,資料分析通常耗費了大部分的時間。由於大型資料集分散在多個伺服器,僅使用 CPU 設備伺服器的橫向擴充解決方案,將因為缺乏可擴充運算效能而陷入困境。

使用 H100 的加速伺服器,除了提供運算強大功能外,每個 GPU 提供 每秒 3 TB 記憶體頻寬,並且可擴充使用 NVLink 和 NVSwitch™,能夠支援大型資料集,高效能且大規模處理資料分析。將 NVIDIA 資料中心平台與 NVIDIA Quantum-2 Infiniband、Magnum IO 軟體、GPU 加速的 Spark 3.0 和 NVIDIA RAPIDS™ 搭配使用,能以更高的效能和效率水準加速這些巨大的工作負載。

適用於企業

IT 管理人員希望能將資料中心運算資源使用率提到最高 (包含峰值和平均值)。他們通常會針對使用的工作負載中適當大小的資源,採用運算動態重新設定。

使用多執行個體 GPU 的 H100 能夠讓基礎架構管理員標準化 GPU 加速基礎架構,同時具備更大彈性佈建更細緻的 GPU 資源,安全地提供開發人員合適的加速運算功能,並最佳化所有 GPU 資源使用。

內建機密運算

傳統的機密運算解決方案以 CPU 為基礎,對於大規模人工智慧等運算密集型工作負載而言限制太大。NVIDIA 機密運算是 NVIDIA Hopper 架構內建的安全功能,使得 H100 成為具備這些功能的世界首款加速器。搭配 NVIDIA Blackwell,能以指數級方式提升效能,同時保護資料的機密性和完整,使用中的應用程式具有前所未見的能力解鎖資料深入見解。客戶現在可以使用硬體為基礎的信任執行環境 (TEE),以最高效的方式保護和隔離整個工作負載。

適用於大規模人工智慧與高效能運算的卓越效能

Hopper Tensor 核心 GPU 將驅動 NVIDIA Grace Hopper CPU+GPU 架構,專為 TB 級加速運算所打造,並為大模型人工智慧和高效能運算提供高出 10 倍的效能。NVIDIA Grace CPU 運用 Arm® 架構的彈性,專為加速運算需求而從頭打造 CPU 和伺服器架構。Hopper GPU 搭配 Grace CPU 使用 NVIDIA 超高速晶片對晶片互連技術,提供每秒 900GB 頻寬,比第五代 PCIe 快 7 倍。與現今最快速的伺服器相比,此創新設計可提供高達 30 倍的彙總系統記憶體頻寬,且能為執行數 TB 資料的應用程式,提供高達 10 倍的效能。

H100 NVL 可強化大型語言模型推論

對於高達 700 億參數的 LLM (Llama 2 70 B),搭載 NVLink 橋接器的 PCIe 式 NVIDIA H100 NVL 利用 Transformer 引擎、NVLink 和 188GB HBM3 記憶體,在任何資料中心均能提供最佳效能並輕鬆擴充,使LLM 成為主流。搭載 H100 NVL GPU 的伺服器可將 Llama 2 70 B 效能提升至 NVIDIA A100 系統的 5 倍之高,同時在電力有所限制的資料中心環境中維持低延遲。

適用於企業:人工智慧軟體可簡化開發和部署的流程

NVIDIA H100 NVL 配備五年的 NVIDIA AI Enterprise 訂閱,簡化建立企業人工智慧平台的流程。H100 能加快適用於生產環境的生成式人工智慧解決方案的人工智慧開發和部署,包括電腦視覺、語音人工智慧、檢索增強生成 (RAG) 等。NVIDIA AI Enterprise 包括 NVIDIA NIMTM,這是一組易於使用的微服務,旨在加速企業生成式人工智慧部署。這樣一來,部署就具備企業級的安全性、可管理性、穩定性以及支援。因此能帶來效能最佳化的人工智慧解決方案,提供更快的商業價值與可付諸行動的深入見解。

產品規格

  H100 SXM H100 NVL
FP64 34 兆次浮點運算 30 兆次浮點運算
FP64 Tensor Core 67 兆次浮點運算 60 兆次浮點運算
FP32 67 兆次浮點運算 60 兆次浮點運算
TF32 Tensor 核心* 989 兆次浮點運算 835 兆次浮點運算
BFLOAT16 Tensor 核心* 1,979 兆次浮點運算 1,671 兆次浮點運算
FP16 Tensor 核心* 1,979 兆次浮點運算 1,671 兆次浮點運算
FP8 Tensor 核心* 3,958 兆次浮點運算 3,341 兆次浮點運算
INT8 Tensor 核心* 3,958 秒兆次運算 3,341 秒兆次運算
GPU 記憶體 80 GB 94 GB
GPU 記憶體頻寬 每秒 3.35TB 每秒 3.9TB
解碼器 7 NVDEC
7 JPEG
7 NVDEC
7 JPEG
最大散熱設計功耗 (TDP) 高達 700W (可設定) 350-400W (可設定)
多執行個體 GPU 最多 7 個 10GB 的多執行個體 GPU 最多 7 個 12GB 的多執行個體 GPU
外形規格 SXM PCIe
雙插槽氣冷式散熱
互連技術 NVIDIA NVLink™:每秒 900GB
PCIe Gen5:每秒 128GB
NVIDIA NVLink:每秒 600GB
PCIe Gen5:每秒 128GB
伺服器選項 NVIDIA HGX H100 合作夥伴與 NVIDIA
認證系統 搭載 4 個或 8 個 GPU
NVIDIA DGX H100 搭載 8 個 GPU
合作夥伴與 NVIDIA 認證系統™,搭載 1–8 個 GPU
NVIDIA AI Enterprise 包含 可附加

深入探索 NVIDIA Hopper 架構。