MLPerf 基準

NVIDIA 訓練與推論解決方案在衡量人工智慧效能的頂尖業界基準 MLPerf 中,樹立效能標竿記錄。

什麼是 MLPerf?

MLPerf 是由學術界、研究實驗室和業界人士組成的人工智慧領袖聯盟,基於「打造公平、實用基準」的使命,為硬體、軟體和服務的訓練與推斷效能提供中立評估,且全部在預定條件下執行。為了在業界趨勢中保持領先地位,MLPerf 透過定期進行新的測試,並增加能體現最尖端人工智慧技術的全新工作負載,持續進化。

查爾姆斯理工大學是瑞典首屈一指的研究機構,專攻奈米技術和氣候變遷研究等多個領域。我們將人工智慧與研究工作結合,發現 MLPerf 基準提供了跨多個人工智慧平台的同類型比較,以展示不同實際用例中的效能。

──瑞典查爾姆斯理工大學

台積電 (TSMC) 正在推動全球半導體製造的領先技術,例如我們最新的 5 奈米節點,即在程序技術市場上引領先鋒。採用機器學習的微影製程和蝕刻建模等創新技術,大幅提升我們的光學鄰近修正 (OPC) 和蝕刻模擬精度。為了讓機器學習在模型訓練和推理中發揮十足潛力,我們正與 NVIDIA 工程團隊合作,將自家的 Maxwell 模擬和逆向微影製程技術 (ILT) 引擎轉移到 GPU 上,以大幅加速。MLPerf 基準是決策的重要因素

──美國加州聖荷西市台積電 OPC 部主任,Danping Peng 博士

電腦視覺和成像是人工智慧研究的核心,不僅推動科學發現,也是醫療保健的關鍵組成。我們與 NVIDIA 密切合作,將 3DUNet 等創新技術引入醫療照護市場。業界標準 MLPerf 基準提供相關效能資料,幫助 IT 組織和開發人員取得正確解決方案,加速特定專案與應用程式。

— 德國癌症研究中心 (DKFZ) 醫學影像運算主任,Klaus Maier-Hein 博士

作為研究與製造的卓越先鋒,三星 (Samsung) 使用人工智慧以顯著提升產品效能、提高製造生產力。我們必須擁有最佳運算平台,才能將這些人工智慧先進技術轉型為產品。MLPerf 基準可跨平台統一評估,提供我們開放又直接的評估方法,精簡選擇流程。

─ 三星電子 (Samsung Electronics)

MLPerf 提交類別

MLPerf 訓練由 8 種不同的工作負載組成,涵蓋多種使用案例,包括視覺、語言、推薦系統和強化學習。

MLPerf 推論測試了 7 種不同神經網路中的 7 個使用案例。其中三個使用案例適用電腦視覺、一個針對推薦系統、兩個用於語言處理,還有一個則應用於醫療影像。

影像分類

影像分類

從一組固定類別中為輸入的影像指派標籤,應用於電腦視覺問題。詳細資訊

物體偵測 (輕量型)

物體偵測 (輕量型)

在影像或影片中尋找真實世界中的物體,如臉部、自行車和建築,並指定每個物體周圍的邊框。詳細資訊

物體偵測 (重量型)

物體偵測 (重量型)

在影像集中偵測感興趣的物體,並為每個物體都識別出像素遮罩。詳細資訊

生物醫學影像分割

生物醫學影像分割

在醫療使用案例中執行密集 3D 影像的立體分割。詳細資訊

翻譯 (遞歸)

翻譯 (遞歸)

使用遞歸神經網路 (RNN) 將某種語言的文本翻譯成另一種語言。詳細資訊

自動語音辨識 (ASR)

自動語音辨識 (ASR)

即時辨識及轉譯音訊。詳細資訊

自然語言處理 (NLP)

自然語言處理 (NLP)

利用文字區塊中不同單詞間的關係瞭解文字。能夠解答問題、釋義句子,及完成許多其他語言相關的使用案例。詳細資訊

建議

建議

透過瞭解使用者與服務產品之間的互動 (如產品或廣告),為使用者端服務提供個人化結果 (如社群媒體或電子商務網站)。詳細資訊

強化學習

強化學習

在 19x19 網格座標上的策略遊戲《Go》中,評估所採取之動作的不同可能性,以獲得最大報酬。詳細資訊

NVIDIA 的 MLPerf 基準測試成果

  • 訓練

    訓練

  • 推論

    推論

NVIDIA A100 Tensor 核心 GPU 和 NVIDIA DGX SuperPOD 在晶片和大規模工作負載中,共創下 16 項訓練效能記錄。此突破性的效能 — 加上源自於硬體、軟體與系統級技術的緊密整合,以及 NVIDIA 持續投資全方位效能,成功改善了 4 個 MLPerf 提交項目的輸送量。NVIDIA 平台能發揮出色的效能和可用性,提供領先地位的單一平台,一路涵蓋資料中心、邊緣並直上雲端。

根據 MLPERF 基準,在 3 年中效能提升超過 20 倍

NVIDIA 的全方位創新讓效能持續提升

MLPerf 訓練效能基準

NVIDIA 共創下 16 項記錄

市面上適用的解決方案

NVIDIA 人工智慧平台在 OEM 伺服器和 NVIDIA DGX 中使用 NVIDIA A100 GPU,所有 8 項加速器測試皆創下記錄。這證明了端對端 NVIDIA 硬體和軟體堆疊強大的功能,可以讓電腦製造商在 MLPerf 上提供創下記錄的成果。

基準 規模記錄 (分鐘) 每個加速器的記錄 (分鐘)
推薦 (DLRM) 0.63 (DGX SuperPOD) 13.5 (A100)
NLP (BERT) 0.24 (DGX SuperPOD) 155.1 (A100)
語音辨識 - 遞歸 (RNN-T) 2.38 (DGX SuperPOD) 267.0 (A100)
物體偵測 - 重量型 (Mask R-CNN) 3.24 (DGX SuperPOD) 335.1 (A100)
物體偵測 - 輕量型 (SSD) 0.45 (DGX SuperPOD) 63.8 (A100)
影像分類 (ResNet-50 v1.5) 0.35 (DGX SuperPOD) 220.5 (A100)
影像分割 (3D-Unet) 1.26 (Microsoft Azure NDm A100 v4) 187.7 (A100)
強化學習 (MiniGo) 15.47 (DGX SuperPOD) 1805.2 (A100)

NVIDIA 在所有情境 (資料中心伺服器和離線、邊緣端單一串流、多串流和離線) 中,都達到了頂尖的效能成果。此外,在所有測試產品中,我們在跨全部基準測試中都達到各加速器最佳的效能表現。這些成果不僅證明了 NVIDIA 在推論效能的領先地位,也說明我們的推論平台具備多功能性。

適用於資料中心和邊緣的離線情境 (單一 GPU)

  NVIDIA A100 (x86 CPU)
(推論數/秒)
NVIDIA A100 (Arm CPU)
(推論數/秒)
NVIDIA A30
(推論數/秒)
NVIDIA® Jetson Xavier
(最大推論數/查詢)
DLRM
(推薦系統)
312,380 281,283 138,194 N/A*
BERT
(自然語言處理)
3,490 3,149 1,668 476
ResNet-50 v1.5
(影像分類)
39,160 36,487 18,406 6,139
ResNet-34
(大型單次偵測器)
990 906 478 208
RNN-T
(語音辨識)
13,344 13,188 6,557 1,110
3D U-Net
(醫學影像)
3 3 2 0.5

成果背後的技術

需要平台在各方面間緊密整合,才能實現複雜的人工智慧技術。誠如 MLPerf 的基準測試成果所示,NVIDIA 人工智慧平台利用全球最先進的 GPU、強大且可擴充的互連技術,及尖端軟體提供領先效能,是一款可部署在資料中心、雲端或邊緣的端對端解決方案,更能達到驚人成效。

NVIDIA NGC 的預先訓練模型和最佳化軟體

加速人工智慧工作流程的最佳化軟體

NGC 作為 NVIDIA 平台及促成 MLPerf 訓練與推論成果的基本元件,是一款適用於 GPU 最佳化人工智慧、高效能運算 (HPC) 和資料分析軟體的中樞,可簡化並加速端對端工作流程。NGC 擁有超過 150 個企業級容器,包括對話式人工智慧推薦系統的工作負載、超過 100 個模型,以及可部署於本機、雲端或邊緣的特定產業 SDK,讓資料科學家、研究人員和開發人員能以前所未有的速度打造出一流的解決方案、蒐集見解,並提供商業價值。

人工智慧基礎架構領導品牌

若要在訓練與推論中獲得領先全球的成果,需要具備專為全球最複雜人工智慧挑戰打造的基礎架構。NVIDIA AI 平台運用NVIDIA A100 Tensor 核心 GPU、NVIDIA A30 Tensor 核心 GPUNVIDIA A2 Tensor 核心 GPUJetson AGX Orin模組以及 NVIDIA 互連技術的可擴充性與彈性 —NVIDIA NVLink®、NVIDIA NVSwitch以及 the NVIDIA ConnectX®-6 VPI。這些都是 NVIDIA DGX™ A100 的核心,也是我們基準測試效能背後的引擎。

NVIDIA DGX 系統提供了可擴充性、快速部署和強大的運算能力,讓每個企業都能打造頂尖的人工智慧基礎架構。

NVIDIA Tensor 核心 GPU

深入瞭解我們的資料中心訓練和推論產品效能。