將使用者參與體驗提升至全新境界

提升深度學習推論工作負載的輸送量,及靈敏度體驗

人工智慧持續面臨挑戰,在想辦法處理爆炸性增長的資料量同時,還得作出靈敏快速的反應。利用 NVIDIA® Tesla®  GPU 運行 NVIDIA TensorRT,是全球最快速、效率最高的資料中心推論平台,讓你準備好正面迎擊挑戰。Tesla 支援所有的深度學習工作負載,並提供最好的推論解決方案: 集最高輸送量、最佳效率與最優靈活性於一身,提供人工智慧體驗。TensorRT 能釋放 Tesla GPU 的效能,並為 NVIDIA DeepStream SDK 與 NVIDIA 推論伺服器產品提供基礎,可支援多種應用程式,例如影片串流、語音和推薦系統。

NVIDIA 資料中心推論平台

TESLA T4

NVIDIA® T4 GPU 可加速多種類型的雲端工作負載,包含高效能運算、深度學習訓練與推論、機器學習、資料分析和繪圖運算。T4 採用 NVIDIA 的 全新 Turing(™) 架構,以及節能的 70 瓦、小型 PCIe 尺寸,且已針對擴充伺服器及擴充運算環境最佳化。此外,也提供多精度 Turing Tensor 核心和全新 RT 核心,因此 T4 若與 NVIDIA GPU 雲上的加速容器化應用軟體堆疊結合,將可大規模提供革命性效能。

deep-learning-ai-inference-platform-t4-background-2560-0912-ud

TESLA T4

NVIDIA® T4 GPU 可加速多種類型的雲端工作負載,包含高效能運算、深度學習訓練與推論、機器學習、資料分析和繪圖運算。T4 採用 NVIDIA 的 全新 Turing(™) 架構,以及節能的 70 瓦、小型 PCIe 尺寸,且已針對擴充伺服器及擴充運算環境最佳化。此外,也提供多精度 Turing Tensor 核心和全新 RT 核心,因此 T4 若與 NVIDIA GPU 雲上的加速容器化應用軟體堆疊結合,將可大規模提供革命性效能。

TESLA V100
各種資料中心均適用

Tesla V100 具有每秒 125 兆次浮點運算的推論效能。一部搭載八張 Tesla V100 的伺服器能進行一千兆次浮點的運算。

TESLA P4
讓水平擴充伺服器締造極高節能性

Tesla P4 可加速任何水平擴充的伺服器,與 CPU 相比,節能性提高 60 倍。

TESLA P40
適用於需提供推論輸送量的伺服器

Tesla P40 提供強大的推論效能、INT8 精度與 24GB 內建記憶體,給你令人驚豔的使用者體驗。

NVIDIA 資料中心運算應用軟體

NVIDIA TensorRT

NVIDIA TensorRT 為高效能的神經網路推論加速器,能夠加速推薦、語音辨識與機器翻譯等應用程式,速度較 CPU 快 100 倍。TensorRT 讓企業或大規模資料中心的開發人員能最佳化神經網路模型、以高精確度對低精度進行校正,以及將模型部署至生產環境。

NVIDIA 推論伺服器

NVIDIA 推論伺服器結合 GPU 加速推論和 Kubernetes。這項容器化推論微服務讓應用程式可以在資料中心生產環境中運用人工智慧模型。專為大幅提升 GPU 使用率而設計,支援所有常用的人工智慧模型和框架,並與 DevOps 架構無縫整合。

NVIDIA GPU 上的 Kubernetes

NVIDIA GPU 上的 Kubernetes 能讓企業將訓練和推論部署無縫擴充至多雲端 GPU 叢集。Kubernetes 能讓你立即將 GPU 加速深度學習和高效能運算 (HPC) 應用程式部署至多雲端 GPU 叢集。

DeepStream SDK

Tesla 專用的 NVIDIA DeepStream 是一款 SDK,可針對智慧城市和大規模資料中心打造深度學習可擴充智慧影片分析 (IVA) 應用程式。結合可進行推論的 NVIDIA TensorRT、適用於轉碼、前置處理的 Video Codec SDK,以及資料庋用 API,以發揮 Tesla GPU 的功能。舉例來說,Tesla P4 GPU 可以即時並同時間解碼和分析最多 30 部 HD 影片串流。

功能與優點

最先進的人工智慧推論平台

Tesla T4 採用 NVIDIA Turing Tensor 核心,為 FP32、FP16、INT8 以及 INT4 精度推論,提供突破性的深度學習訓練效能。T4 具備 INT8 精度 130 兆次運算 (TOPS) 和 INT4 精度 260 兆次運算,擁有全球最高的推論效能。與 CPU 相比,不僅效能高達 40 倍,電源消耗只需 60%。功耗只需 75 瓦 (W),是邊緣端水平擴充伺服器的理想解決方案。

輸送量提高 27 倍,能因應不斷成長的工作負載

採用 NVIDIA Volta™ 的 Tesla V100 GPU 大幅提高資料中心的輸送量,使深度學習工作負載能從現今的海量資料中找出情資。一部配備一張 Tesla V100 的伺服器可處理的深度學習推論工作負載,可取代 50 部只搭載 CPU 的伺服器,因此你只要投入比以往更低的採購成本,就能大幅提升輸送量。

全新人工智慧影片服務專用的解碼引擎

Tesla P4 GPU 可即時分析最多 39 部 HD 影片串流。採用專用的硬體加速解碼引擎,能與 NVIDIA CUDA® 核心共同進行推論。深度學習整合至製作流程後,客戶就能提供全新境界的智慧與創新功能,提升影片搜尋功能和其他影片相關服務。

加快 NVIDIA TensorRT 與 DeepStream SDK 部署速度

NVIDIA TensorRT 為高效能神經網路推論加速器,可供推薦系統、語音辨識和機器翻譯等深度學習應用程式生產部署使用。TensorRT 能讓使用 32 或 16 位元資料訓練的神經網路在 Tesla P4 上針對降低精度的 INT8 作業最佳化,或是在 Tesla V100 上針對降低精度的 FP16 作業最佳化。 NVIDIA DeepStream SDK 利用 Tesla GPU 的功能,可同時解碼與分析影片串流。

大幅提升 GPU 使用率,且支援所有熱門框架的推論服務

NVIDIA 推論伺服器可以讓你輕鬆地將推論運用在解決方案,徹底發揮 GPU 的效能。NVIDIA 推論伺服器有立即可用的容器,這項微服務可以讓你透過簡易表現層狀態轉換 (REST) API 執行推論,適用於 TensorFlow、MXNet、Caffe2、MATLAB 和 NVIDIA TensorRT,或是任何支援 ONNX 標準之框架的任何模型。

效能規格

Tesla T4: 全球最先進的推論加速器 TESLA V100: 各種資料中心均適用的 GPU Tesla P4: 適用於水平擴充伺服器,並可締造高節能性的 Tesla P40: 適用於需提供推論輸送量的伺服器
單精度效能 (FP32) 8.1 TFLOPS 每秒 14 兆次浮點運算 (PCIe) 每秒
兆次浮點運算 (SXM2)
每秒 5.5 兆次浮點運算 每秒 12 兆次浮點運算
半精度效能 (FP16) 65 FP16 TFLOPS 每秒 112 兆次浮點運算 (PCIe)每秒
125 兆次浮點運算 (SXM2)
整數運算 (INT8) 130 INT8 TOPS 22 兆次運算* 47 兆次運算*
GPU 記憶體 16GB 16 GB HBM2 8 GB 24 GB
記憶體頻寬 320GB/s 900 GB/秒 192 GB/秒 346 GB/秒
系統介面/尺寸 Low-Profile PCI Express Form Factor 雙插槽、PCI Express 標準版尺寸 SXM2/NVLink PCI Express 短卡尺寸 雙插槽、PCI Express 標準版尺寸
電源 75 W 250 W (PCIe)
300 W (SXM2)
50 W/75 W 250 W
影片硬體加速引擎 1 個解碼引擎、2 個編碼引擎 1 個解碼引擎、2 個編碼引擎 1 個解碼引擎、2 個編碼引擎

*啟用加速時脈時的每秒兆次浮點運算

客戶案例

語音辨識

利用執行 TensorRT 應用軟體的 NVIDIA Tesla GPU,降低語音辨識應用程式所需的反應時間,並維持精確度。

影像與影片處理

利用 NVIDIA DeepStream SDK 與 Tesla GPU,將影像與影片處理工作負載的輸送量效率最大化。

推薦系統

利用在 NVIDIA GPU 平台上執行,且採用深度學習技術的神經協作式篩選應用程式,提升推薦預測精確度。

立即將你的深度學習推論解決方案最佳化。

Tesla V100、T4、P40 現已提供深度學習推論功能。