NVIDIA GB200 NVL72

驅動運算新時代

概覽
產品特點
GB200 NVL4
特色
規格

概覽
產品特點
GB200 NVL4
特色
規格

釋放即時兆級參數模型

它擁有一個由 72 個 GPU 組成的 NVIDIA NVLink™ 域，能夠作為單一、超大型 GPU 運作，並提供即時推論速度提升 30 倍、用於兆級參數的大型語言模型 (LLM)，同時在混合專家 (MoE) 架構上達到 10 倍的效能提升。

GB200 Grace Blackwell 超級晶片是 NVIDIA GB200 NVL72 的關鍵元件，利用 NVLink-C2C 互連技術，將兩顆高效能 NVIDIA Blackwell Tensor 核心 GPU 與 NVIDIA Grace™ CPU，連接至兩顆 Blackwell GPU。

適用於即時兆級參數推論和訓練的 Blackwell 機架規模架構

NVIDIA GB200 NVL72 是單一機架的 Exascale 級電腦。NVLink Switch 系統採用有史以來最大 NVIDIA NVLink 網域互連的 72 顆 NVIDIA Blackwell GPU，為 AI 與高效能運算 (HPC) 工作負載提供每秒 130 TB (TB/s) 的低延遲 GPU 通訊。

技術部落格文章

重點

大幅強化新一代人工智慧和加速運算

LLM 推論

30 倍相對於 NVIDIA H100 GPU

大型語言模型訓練

4 倍相對於 H100

節能

25 倍相對於 H100

資料處理

18 倍相對於 CPU

「LLM 推論與能源效率：TTL = 50 毫秒 (ms) 實際時間、FTL = 5 秒，32,768 個輸入/1,024 個輸出，比較透過 InfiniBand (IB) 擴充的 NVIDIA HGX™ H100 與 GB200 NVL72 訓練 1.8T MOE 的效能，其中比較的是透過 IB 擴充的 4096x HGX H100，以及透過 IB 擴充的 GB200 NVL72。叢集規模：32,768
採用源自 TPC-H Q4 查詢，採用 Snappy / Deflate 壓縮技術的資料庫聯結與彙總工作負載。GB200 NVL72 相較於 Intel Xeon 8480+，x86、H100 單一 GPU 與單一 GPU 的自訂查詢實作
此為預計效能，之後將有可能更新。

即時 LLM 推論

GB200 NVL72 引進尖端功能和第二代 Transformer Engine，實現了 FP4 AI。它搭配第五代 NVIDIA NVLink 技術時，兆級參數語言模型的即時 LLM 推論效能加快了 30 倍。新一代 Tensor 核心引進針對高傳輸量低延遲 AI 推論最佳化的全新微縮放格式，是實現這項進展的推手。此外，GB200 NVL72 採用 NVLink 和液冷式技術打造的單一大型 72 GPU 機架，可克服各項通訊瓶頸。

大規模訓練

GB200 NVL72 採用更快的第二代 Transformer 引擎，提供 FP8 的精度，實現了大型語言模型大規模訓練速度提升 4 倍的驚人表現。這項突破性技術獲得第五代 NVLink 加持，提供每秒 1.8 TB 的 GPU 對 GPU 互連頻寬、InfiniBand 網路技術，以及 NVIDIA Magnum IO™ 軟體。

節能基礎架構

液冷式 GB200 NVL72 機架可減少資料中心的碳足跡與能耗。液冷式設計可提升運算密度、減少使用的空間，並透過大型 NVLink 網域架構促進高頻寬低延遲的 GPU 通訊。相較於 NVIDIA H100 氣冷式基礎架構，功率相同時，GB200 的效能高出 25 倍，而且用水量減少。

資料處理

在企業處理、運算及分析大量資料方面，資料庫扮演了關鍵角色。GB200 充分利用 NVIDIA Blackwell 架構的高頻寬記憶體效能、NVLink-C2C，以及專用解壓縮引擎，相較於 CPU，關鍵資料庫查詢的速度加快 18 倍，總體擁有成本降低 5 倍。

NVIDIA GB200 NVL4

NVIDIA GB200 NVL4 開啟融合式高效能運算與 AI 的未來發展，採用橋接方式，透過 NVLink-C2C 互連技術整合四顆 NVIDIA NVLink Blackwell GPU 與兩顆 Grace CPU，實現革命性的效能。這款產品與液冷式 NVIDIA MGX™ 模組化伺服器相容，相較於前一代，在科學運算、科學訓練 AI 與推論應用方面，效能最高提升 2 倍。

閱讀產品資料表

特色

技術突破

Blackwell 架構

NVIDIA Blackwell 架構在加速運算領域取得突破性進展，以無與倫比的效能、效率和擴充性，驅動了計算領域的新紀元。

深入瞭解

NVIDIA Grace CPU

NVIDIA Grace CPU 這款突破性處理器，是專為執行 AI、雲端與高效能運算應用的現代資料中心而設計。該處理器不僅效能與記憶體頻寬卓越，能源效率更是現今主要伺服器處理器的 2 倍。

深入瞭解

第五代 NVIDIA NVLink

若要充分發揮百萬兆級運算能力和兆級參數人工智慧模型的潛能，伺服器叢集中每個 GPU 的通訊需要迅速且流暢。第五代 NVLink 是擴充互連技術，有助兆級和數兆級參數的人工智慧模型發揮加速效能。

深入瞭解 NVLink 和 NVLink NVSwitch

NVIDIA 網路

資料中心的網路是推動 AI 發展和效能的關鍵，也是分散式 AI 模型訓練和生成式 AI 效能的支柱。NVIDIA Quantum-X800 InfiniBand、NVIDIA Spectrum™-X800 乙太網路與 NVIDIA® BlueField®-3 DPU 提供數百個或數千個 Blackwell GPU 高效的擴充性，所以有助實現最佳應用程式效能。

瞭解端到端網路解決方案

AI 工廠掀起全新產業革命

規格

GB200 NVL72 規格¹

	GB200 NVL72	GB200 Grace Blackwell 超級晶片
組成	36 顆 Grace CPU \| 72 顆 Blackwell GPU	1 顆 Grace CPU \| 2 顆 Blackwell GPU
FP4 Tensor 核心²	1,440 \| 720 PFLOPS	40 \| 20 PFLOPS
FP8/FP6 Tensor 核心²	720 PFLOPS	20 PFLOPS
INT8 Tensor 核心²	720 POPS	20 POPS
FP16/BF16 Tensor 核心²	360 PFLOPS	10 PFLOPS
TF32 Tensor 核心²	180 PFLOPS	5 PFLOPS
FP32	5,760 TFLOPS	160 TFLOPS
FP64 / FP64 Tensor 核心	2,880 TFLOPS	80 TFLOPS
GPU 記憶體頻寬	最高 13.4 TB HBM3e \| 每秒 576 TB	最高 372 GB HBM3e \| 每秒 16 TB
NVLink 記憶體頻寬	每秒 130 TB	每秒 3.6 TB
CPU 核心數	2592 個 Arm® Neoverse V2 核心	72 個 Arm Neoverse V2 核心
CPU 記憶體頻寬	最高 17 TB LPDDR5X \| 最高每秒 14 TB	最高 480GB LPDDR5X \| 最高每秒 512 GB
1. 稀疏 \| 密集的規格。 2. 稀疏規格。密集型是所顯示稀疏規格的一半。

開始使用

隨時掌握最新消息

訂閱以在 NVIDIA Blackwell 上市時獲得通知。

通知我

NVIDIA GB300 NVL72

NVIDIA GB300 NVL72 採用全液冷式機架規模架構，在單一平台整合 72 顆 NVIDIA Blackwell Ultra GPU 與 36 顆 Arm® 技術的 NVIDIA Grace™ CPU，是專為測試時擴充推論與 AI 推理任務而打造。GB300 NVL72 加速的 AI 工廠採用 NVIDIA Quantum-X800 InfiniBand 或 Spectrum-X 乙太網路、ConnectX-8 SuperNIC 以及 NVIDIA Mission Control 管理，相較於 NVIDIA Hopper 平台，AI 工廠輸出效能整體最高提升 50 倍。

深入瞭解