Tesla P4、P40加速器帶來高出45倍的人工智慧 TensorRT及DeepStream軟體提升人工智慧視訊推論
NVIDIA (輝達) 今天宣布推出 Pascal™ 架構深度學習平台的最新生力軍 NVIDIA® Tesla® P4 及P40 GPU 加速器與全新軟體,在效能及速度提供大幅度的提升以加速人工智慧服務的推論生產作業負載。
語音助理、待過濾垃圾郵件及電影與產品推薦引擎等現代人工智慧 (AI) 服務越來越複雜,與一年前的神經網路相比需要高出10倍的運算。目前以CPU為主的技術無法提供現代人工智慧服務所需要的即時回應能力,導致不佳的使用者經驗。
Tesla P4及P40 特別針對推論設計,使用經訓練的深度神經網路識別語音、影像及文字以回應使用者和裝置要求。Pascal架構 GPU具備以8位元 (INT8) 運算為主的專門推論指令,提供比CPU快45倍的反應速度(1),與不到一年前推出的GPU解決方案相比則提升了4倍(2)。
Tesla P4 為資料中心帶來最高的能源效率,其小尺寸及最小50瓦特的低功率設計可安裝於任何伺服器內,讓生產作業負載推論的能源效率達 CPU 的 40 倍(3)。在進行視訊推論作業負載(4)時,單一伺服器裡安裝單顆 Tesla P4 即可取代 13 台僅採用 CPU 的伺服器;而包含伺服器及用電量的總持有成本則能節省達8倍。
Tesla P40為深度學習作業負載帶來最大的處理量。一台搭載 8 顆 Tesla P40 加速器的伺服器擁有每秒47兆次運算 (TOPS) 的推論效能及 INT8 指令,可取代 140 台以上的 CPU 伺服器的效能(5)。若以每台 CPU 伺服器約 5,000 美元計算,可節省 65 萬美元以上的伺服器採購成本。
NVIDIA加速運算總經理Ian Buck表示:「有了 Tesla P100 以及新推出的 Tesla P4及P40,NVIDIA為資料中心提供唯一的端對端深度學習平台,為各大產業釋放龐大的人工智慧潛力。將訓練時間從數天大幅縮短至數小時,能立即解析資料,並透過人工智慧服務即時對消費者做出回應」。
實現更快速推論的軟體工具
另外與 Tesla P4 及 P40 推出的包含兩項加速人工智慧推論的創新軟體:NVIDIA TensorRT 及 NVIDIA DeepStream SDK。
TensorRT為針對優化生產部署所設計的深度學習模型函式庫,具有立即回應極度複雜網路的能力。透過訓練過的 32 位元或 16 位元定義神經網路以及設定以降低精度的INT8運算為目的進行優化,將深度學習應用的處理量及效率極大化。
NVIDIA DeepStream SDK銜接強大的Pascal伺服器,與雙 CPU 只能處理7個串流(6)的運算能力相比,能即時同步解碼並分析高達 93 個 HD 視訊串流。這解決人工智慧的其中一項重大挑戰:處理大規模的影音內容分析以應用到如自駕車、互動式機器人、過濾及廣告投放等領域。深度學習整合至視訊應用中讓企業能提供前所未有、智慧且創新的視訊服務。
協助客戶向前邁進
NVIDIA的客戶提供越來越多需要最高運算效能的創新人工智慧服務。其中台灣廠商廣達持續在伺服器業務與 NVIDIA 合作,從世上首座人工智慧超級電腦系統 DGX-1、Facebook Big Sur 推論伺服器到搭載 NVIDIA 糖果盒大小 Tesla P4 輕巧 1U 伺服器,皆透過該公司而得以打造出優異的產品陣容。
NVIDIA 共同創辦人暨執行長黃仁勳表示:「廣達從早期便與我們一同致力於GPU伺服器發展,不論想建造何種類型資料中心,透過我們與廣達及雲達的合作都能達成。」
雲達科技總經理楊晴華表示:「我們的客戶相當倚重雲達在超大規模 、高密度融合機架式等級解決方案中的領導地位,這些解決方案通常都需要高效能的作業負載。以深度學習的應用而言,平行運算回應之間的延遲性表現十分重要,而 Tesla P40 和 P4 正是能表現出準確與靈敏效能的新一代 GPU 解決方案。」
規格
Tesla P4及P40 GPU規格包括:
規格 |
Tesla P4 |
Tesla P40 |
單精度TeraFLOPS* |
5.5 |
12 |
INT8 TOPS* (每秒兆次運算) |
22 |
47 |
CUDA核心 |
2,560 |
3,840 |
GPU GDDR5記憶體 |
8GB |
24GB |
記憶體頻寬 |
每秒192GB |
每秒346GB |
功率 |
50 瓦特(或以上) |
250 瓦特 |
* 加速時脈(boost clock)啟動
供貨時程
NVIDIA Tesla P4及P40 分別預定於11月及10月由各大ODM、OEM及通路合作夥伴供貨。
參考資料
- 深度學習訓練與推論的差異
- Tesla P4 數據資料
- Tesla P40 數據資料
- TensorRT 產品資訊
- DeepStream SDK 產品資訊
- NVIDIA 資料中心解決方案
- 關於深度學習
關於NVIDIA (輝達)
NVIDIA(輝達)(NASDAQ 代碼:NVDA)公司為引領 GPU 加速運算技術的電腦科技公司。以各項產品、服務及軟體推動在虛擬實境、人工智慧、專業視覺化和自動駕駛車等領域,為遊戲玩家、設計師和科學家這些世上要求最為挑剔的使用者,創造出美好體驗。欲瞭解更多資訊,請瀏覽 //www.nvidia.com.tw/newsroom 及 //blogs.nvidia.com.tw 網站。
# # #
(1)以VGG-19神經網路、batch size = 4為基準比較延遲性。CPU:Xeon E5-2690v4,使用Intel MKL 2017。GPU:Tesla P40,使用TensorRT內部版本。針對Intel優化的VGG-19,來源https://github.com/intel/caffe/tree/master/models/mkl2017_vgg_19。
(2)利用 Caffe GoogLeNet 神經網路、batch size = 128 比較 img/sec。用配備 8 顆 P40 的 GPU 伺服器與配備 8 顆 M40 的 GPU 伺服器做比較。兩者皆使用 TensorRT 內部版本。
(3)利用Caffe AlexNet神經網路、batch size = 128比較img/sec。CPU:E5-2690v4,使用Intel MKL 2017。使用Intel優化的Caffe及AlexNet,來源https://github.com/intel/caffe。GPU:Tesla P4,量測GPU功率。
(4)利用Intel優化的 GoogLeNet、雙插槽 CPU 伺服器、使用 Intel MKL 2017 的 Xeon E5-2650v4。使用 DeepStream SDK 的 1 顆 Tesla P4 GPU 伺服器。視訊串流為 720p @ 30FPS。
(5)利用 Caffe GoogLeNet 神經網路、batch size = 128 比較 img/sec。雙插槽 CPU 伺服器、使用 Intel MKL 2017 的 Xeon E5-2690v4、358 images/sec。配備 8 顆 Tesla P40的GPU伺服器,使用TensorRT內部版本、52K images/sec,比CPU伺服器高出145倍的處理量。
(6)Intel優化的Caffe,使用雙插槽E5-2650 v4 CPU伺服器、Intel MKL 2017,以Intel優化的GoogLeNet為基礎:https://github.com/intel/caffe/tree/master/models/mkl2017_googlenet_v2,在 30FPS 時以 720p 執行轉碼。GPU:使用配備單顆 Tesla P4及雙插槽E5-2650 v4的CPU伺服器。
# # #
本新聞稿可能包含 NVIDIA 根據目前預期所做出的前瞻性聲明;包含但不限於 NVIDIA Telsa P4 與 P40 GPU 加速器的功能、效能、優點以及價格與供貨時程,這些前瞻性聲明包含可能導致實質結果與預期不符之風險與不確定因素。多項重要因素可能導致實際結果與前瞻性聲明所示之結果出現重大差異,所及範圍有全球經濟情況、我們的產品借重第三方協力廠商之製造、組合、封裝和測試之部分;技術發展和市場競爭之影響;新產品或技術之發展或我們現有產品與技術之提升;市場接受我們的產品或合作夥伴產品的程度;設計、製造或軟體的缺失;消費者偏好或需求之改變;業界標準和介面之改變;整合到系統後無法預期的產品或效能降低之技術缺失;以及我們定期提交給美國證券交易委員會 (SEC) 之 Form 10-Q (截止於 2016 年 7 月 31 日之財務季度) 等報告中的其他詳細因素。 NVIDIA 在公司官方網站上免費提供定期提交給 SEC 的報告之副本。這些前瞻性聲明不保證未來的效能,只陳述目前的狀態,除非法律規定,否則 NVIDIA 沒有意願或義務因為新資訊、未來事件或其他理由而更新或修改任何前瞻性聲明。
本文為 NVIDIA 公司 2016 版權所有並保留所有權利。 NVIDIA、NVIDIA 標誌、Telsa 與 Pascal 是 NVIDIA 公司在美國及其他地區的商標及 (或) 註冊商標。所有其他公司及產品名稱乃為所屬個別公司之商標。功能、定價、出貨時程和規格之變更不會另行通知。
新聞聯絡人 |
世紀奧美公關顧問 |