NVIDIA Grace Blackwell GB200

NVIDIA GB200 NVL72

驅動運算新時代

釋放即時兆級參數模型

NVIDIA GB200 NVL72 採用機架規模的液冷式設計,連接 36 顆 Grace CPU 與 72 顆 Blackwell GPU。它採用的 NVIDIA NVLink™ 網域由 72 顆 GPU 組成,以單一大型 GPU 的方式提供快 30 倍的即時兆級參數大型語言模型 (LLM) 推論。

GB200 Grace Blackwell 超級晶片是 NVIDIA GB200 NVL72 的關鍵元件,利用 NVLink-C2C 互連技術,將兩顆高效能 NVIDIA Blackwell Tensor 核心 GPU 與 NVIDIA Grace™ CPU,連接至兩顆 Blackwell GPU。

適用於即時兆級參數推論和訓練的 Blackwell 機架規模架構

NVIDIA GB200 NVL72 是單一機架的 Exascale 級電腦。NVLink Switch 系統採用有史以來最大 NVIDIA NVLink 網域互連的 72 顆 NVIDIA Blackwell GPU,為 AI 與高效能運算 (HPC) 工作負載提供每秒 130 TB (TB/s) 的低延遲 GPU 通訊。

重點

大幅強化新一代人工智慧和加速運算

LLM 推論

30 倍

大型語言模型訓練

4 倍

節能

25 倍

資料處理

18 倍

「LLM 推論與能源效率:TTL = 50 毫秒 (ms) 實際時間、FTL = 5 秒,32,768 個輸入/1,024 個輸出,比較透過 InfiniBand (IB) 擴充的 NVIDIA HGX™ H100 與 GB200 NVL72 訓練 1.8T MOE 的效能,其中比較的是透過 IB 擴充的 4096x HGX H100,以及透過 IB 擴充的 GB200 NVL72。叢集規模:32,768
採用源自 TPC-H Q4 查詢,採用 Snappy / Deflate 壓縮技術的資料庫聯結與彙總工作負載。GB200 NVL72 相較於 Intel Xeon 8480+,x86、H100 單一 GPU 與單一 GPU 的自訂查詢實作
此為預計效能,之後將有可能更新。

即時 LLM 推論

GB200 NVL72 引進尖端功能和第二代 Transformer Engine,實現了 FP4 AI。它搭配第五代 NVIDIA NVLink 技術時,兆級參數語言模型的即時 LLM 推論效能加快了 30 倍。新一代 Tensor 核心引進針對高傳輸量低延遲 AI 推論最佳化的全新微縮放格式,是實現這項進展的推手。此外,GB200 NVL72 採用 NVLink 和液冷式技術打造的單一大型 72 GPU 機架,可克服各項通訊瓶頸。

大規模訓練

GB200 NVL72 採用更快的第二代 Transformer 引擎,提供 FP8 的精度,實現了大型語言模型大規模訓練速度提升 4 倍的驚人表現。這項突破性技術獲得第五代 NVLink 加持,提供每秒 1.8 TB 的 GPU 對 GPU 互連頻寬、InfiniBand 網路技術,以及 NVIDIA Magnum IO™ 軟體。

節能基礎架構

液冷式 GB200 NVL72 機架可減少資料中心的碳足跡與能耗。液冷式設計可提升運算密度、減少使用的空間,並透過大型 NVLink 網域架構促進高頻寬低延遲的 GPU 通訊。相較於 NVIDIA H100 氣冷式基礎架構,功率相同時,GB200 的效能高出 25 倍,而且用水量減少。

資料處理

在企業處理、運算及分析大量資料方面,資料庫扮演了關鍵角色。GB200 充分利用 NVIDIA Blackwell 架構的高頻寬記憶體效能、NVLink-C2C,以及專用解壓縮引擎,相較於 CPU,關鍵資料庫查詢的速度加快 18 倍,總體擁有成本降低 5 倍。

NVIDIA GB200 NVL4

NVIDIA GB200 NVL4

NVIDIA GB200 NVL4 開啟融合式高效能運算與 AI 的未來發展,採用橋接方式,透過 NVLink-C2C 互連技術整合四顆 NVIDIA NVLink Blackwell GPU 與兩顆 Grace CPU,實現革命性的效能。這款產品與液冷式 NVIDIA MGX™ 模組化伺服器相容,相較於前一代,在科學運算、科學訓練 AI 與推論應用方面,效能最高提升 2 倍。

特色

技術突破

Blackwell 架構

NVIDIA Blackwell 架構在加速運算領域取得突破性進展,以無與倫比的效能、效率和擴充性,驅動了計算領域的新紀元。

NVIDIA Grace CPU

NVIDIA Grace CPU 這款突破性處理器,是專為執行 AI、雲端與高效能運算應用的現代資料中心而設計。該處理器不僅效能與記憶體頻寬卓越,能源效率更是現今主要伺服器處理器的 2 倍。

第五代 NVIDIA NVLink

若要充分發揮百萬兆級運算能力和兆級參數人工智慧模型的潛能,伺服器叢集中每個 GPU 的通訊需要迅速且流暢。第五代 NVLink 是擴充互連技術,有助兆級和數兆級參數的人工智慧模型發揮加速效能。

NVIDIA 網路

資料中心的網路是推動 AI 發展和效能的關鍵,也是分散式 AI 模型訓練和生成式 AI 效能的支柱。NVIDIA Quantum-X800 InfiniBandNVIDIA Spectrum™-X800 乙太網路NVIDIA® BlueField®-3 DPU 提供數百個或數千個 Blackwell GPU 高效的擴充性,所以有助實現最佳應用程式效能。

AI 工廠掀起全新產業革命

規格

GB200 NVL72 規格¹

  GB200 NVL72 GB200 Grace Blackwell 超級晶片
組成 36 顆 Grace CPU | 72 顆 Blackwell GPU 1 顆 Grace CPU | 2 顆 Blackwell GPU
FP4 Tensor 核心2 1,440 | 720 PFLOPS 40 | 20 PFLOPS
FP8/FP6 Tensor 核心2 720 PFLOPS 20 PFLOPS
INT8 Tensor 核心2 720 POPS 20 POPS
FP16/BF16 Tensor 核心2 360 PFLOPS 10 PFLOPS
TF32 Tensor 核心2 180 PFLOPS 5 PFLOPS
FP32 5,760 TFLOPS 160 TFLOPS
FP64 / FP64 Tensor 核心 2,880 TFLOPS 80 TFLOPS
GPU 記憶體頻寬 最高 13.4 TB HBM3e | 每秒 576 TB 最高 372 GB HBM3e | 每秒 16 TB
NVLink 記憶體頻寬 每秒 130 TB 每秒 3.6 TB
CPU 核心數 2592 個 Arm® Neoverse V2 核心 72 個 Arm Neoverse V2 核心
CPU 記憶體頻寬 最高 17 TB LPDDR5X | 最高每秒 14 TB 最高 480GB LPDDR5X | 最高每秒 512 GB

開始使用

隨時掌握最新消息

訂閱以在 NVIDIA Blackwell 上市時獲得通知。

NVIDIA GB300 NVL72

NVIDIA GB300 NVL72 採用全液冷式機架規模架構,在單一平台整合 72 顆 NVIDIA Blackwell Ultra GPU 與 36 顆 Arm® 技術的 NVIDIA Grace™ CPU,是專為測試時擴充推論與 AI 推理任務而打造。GB300 NVL72 加速的 AI 工廠採用 NVIDIA Quantum-X800 InfiniBand 或 Spectrum-X 乙太網路、ConnectX-8 SuperNIC 以及 NVIDIA Mission Control 管理,相較於 NVIDIA Hopper 平台,AI 工廠輸出效能整體最高提升 50 倍。