NVIDIA V100

首款搭載 Tensor 核心 GPU

歡迎來到人工智慧的世代

從個人癌症療程,到協助虛擬私人助理自然溝通以及預測下一場大型颶風,只要能在龐大的資料中找出獨到洞見,就可為產業帶來徹底轉變。

 

NVIDIA® V100 是最先進的資料中心 GPU,專為加快人工智慧、HPC 和繪圖運算速度而設計。採用 NVIDIA Volta 架構,提供 16 GB 和 32 GB 設定,單一 GPU 即可展現媲美 100 個 CPU 的效能。資料科學家、研究人員和工程師可以省下配置記憶體使用最佳化的時間,投入更多精力設計下一個人工智慧的重大突破。

訓練產出比 CPU 快 32 倍

ResNet-50 training, dataset: ImageNet2012, BS=256 | NVIDIA V100 comparison: NVIDIA DGX-2™ server, 1x V100 SXM3-32GB, MXNet 1.5.1, container=19.11-py3, mixed precision, throughput: 1,525 images/sec | Intel comparison: Supermicro SYS-1029GQ-TRT, 1 socket Intel Gold 6240@2GHz/3.9Hz Turbo, Tensorflow 0.18, FP32 (only precision available), throughput: 48 images/sec

人工智慧訓練

從語音辨識到訓練虛擬私人助理自然溝通,或從開車時偵測車道到訓練自駕車行駛,資料科學家運用人工智慧克服更複雜的挑戰。解決這類的問題需要在可以掌握的時間內,訓練複雜度非常高的深度學習模型。

配備 43000 個 Tensor 核心的 V100,是全球第一個突破 100 兆次浮點運算 (TOPS) 深度學習效能障礙的 GPU。第二代 NVIDIA NVLink™ 以最高每秒 160 GB 的速度連結多個 V100 GPU,建立世界最強大的運算伺服器。在先前系統上會耗費數週運算資源的人工智慧模型,現在只要幾天就可以訓練完成。訓練時間大幅縮短後,人工智慧現在能協助我們解決全新領域的問題。

推論產出比 CPU 伺服器高 24 倍

BERT Base fine-tuning inference, dataset: SQuADv1.1, BS=1, sequence length=128 | NVIDIA V100 comparison: Supermicro SYS-4029GP-TRT, 1x V100-PCIE-16GB, pre-release container, mixed precision, NVIDIA TensorRT™ 6.0, throughput: 557 sentences/sec | Intel comparison: 1 socket Intel Gold 6240@2.6GHz/3.9Hz Turbo, FP32 (only precision available), OpenVINO MKL-DNN v0.18, throughput: 23.5 sentences/sec

人工智慧推論

為了讓我們能連接上最相關的資訊、服務和產品,超大規模的公司已開始運用人工智慧。不過,滿足使用者快速成長的需求並不容易。舉例來說,世界最大型的超大規模公司估計,如果每位使用者每天只花三分鐘使用語音辨識服務,公司就要加倍資料中心的容量。

超大規模的 V100 是針對現有超大規模伺服器架中的最高效能所設計。使用人工智慧作為核心技術,一個配備 V100 GPU 的 13kW 伺服器架可以提供與 CPU 伺服器 47 個機架相同的深度學習推論效能。這個輸送量和效能的大幅成長將使可橫向擴充的人工智慧服務成為可能。

1 個 V100 伺服器節點最多可以取代 135 個只用 CPU 的伺服器節點

Application (Dataset): MILC (APEX Medium) and Chroma (szscl21_24_128) | CPU Server: Dual-Socket Intel Xeon Platinum 8280 (Cascade Lake)

高效能運算 (HPC)

HPC 是現代科技的重要支柱。從氣候預測到藥品開發,再到尋找新的能源資源,研究人員使用大量運算系統來模擬和預測我們的世界。人工智慧讓研究人員可以分析大量資料,延伸傳統的 HPC 技術,在單純模擬無法完全預測真實世界情況之處,獲得實用的資訊。

V100 是專為結合 HPC 和人工智慧所設計。它提供 HPC 系統一個擅長科學模擬和資料科學的運算技術的平台,以在資料中找出見解。在整合的架構中搭配使用 CUDA 核心和 Tensor 核心,採用 V100 GPU 的單一伺服器可以上百個僅配備 CPU 的設備伺服器,取代傳統的 HPC 和人工智慧工作負載。所有的研究人員和工程師現在都可負擔人工智慧超級電腦的價格,來處理最具挑戰的工作。

資料中心 GPU

具備的 NVLink Tesla V100

具備的 NVLink V100

深度學習的終極效能

PCIe 專用的 Tesla V100

PCIe 專用的 V100

為所有工作負載提供最高程度的多樣性

NVIDIA V100 規格

 

V100 for NVLink

V100 for PCIe

V100S for PCIe

效能
使用 NVIDIA GPU Boost™ 的效能

雙精度
7.8 teraFLOPS

單精度
15.7 teraFLOPS

深度學習
125 teraFLOPS

雙精度
7 teraFLOPS

單精度
14 teraFLOPS

深度學習
112 teraFLOPS

雙精度
8.2 teraFLOPS

單精度
16.4 teraFLOPS

深度學習
130 teraFLOPS

互連技術頻寬
使用

NVLink
300 GB/秒

PCIe
32 GB/秒

PCIe
32 GB/秒

記憶體
CoWoS 堆疊 HBM2

容量
32/16 GB HBM2

頻寬
900 GB/秒

容量
32 GB HBM2

頻寬
1134 GB/秒

強大能力
最高耗電量


300 瓦特


250 瓦特

歡迎免費試用

世界上最快速的 HPC 與深度學習專用 GPU 加速器。

經銷據點

透過 NVIDIA 合作夥伴網路 (NPN) 尋找 NVIDIA 加速運算合作夥伴。