NVIDIA® T4 GPU 可加速多種類型的雲端工作負載,包含高效能運算、深度學習訓練與推論、機器學習、資料分析和繪圖運算。T4 採用 NVIDIA 的 全新 Turing(™) 架構,以及節能的 70 瓦、小型 PCIe 尺寸,且已針對擴充伺服器及擴充運算環境最佳化。此外,也提供多精度 Turing Tensor 核心和全新 RT 核心,因此 T4 若與 NVIDIA GPU 雲上的加速容器化應用軟體堆疊結合,將可大規模提供革命性效能。
人工智慧持續面臨挑戰,在想辦法處理爆炸性增長的資料量同時,還得作出靈敏快速的反應。利用 NVIDIA® Tesla® GPU 運行 NVIDIA TensorRT™,是全球最快速、效率最高的資料中心推論平台,讓你準備好正面迎擊挑戰。Tesla 支援所有的深度學習工作負載,並提供最好的推論解決方案: 集最高輸送量、最佳效率與最優靈活性於一身,提供人工智慧體驗。TensorRT 能釋放 Tesla GPU 的效能,並為 NVIDIA DeepStream SDK 與 NVIDIA 推論伺服器產品提供基礎,可支援多種應用程式,例如影片串流、語音和推薦系統。
NVIDIA TensorRT 為高效能的神經網路推論加速器,能夠加速推薦、語音辨識與機器翻譯等應用程式,速度較 CPU 快 100 倍。TensorRT 讓企業或大規模資料中心的開發人員能最佳化神經網路模型、以高精確度對低精度進行校正,以及將模型部署至生產環境。
NVIDIA 推論伺服器結合 GPU 加速推論和 Kubernetes。這項容器化推論微服務讓應用程式可以在資料中心生產環境中運用人工智慧模型。專為大幅提升 GPU 使用率而設計,支援所有常用的人工智慧模型和框架,並與 DevOps 架構無縫整合。
NVIDIA GPU 上的 Kubernetes 能讓企業將訓練和推論部署無縫擴充至多雲端 GPU 叢集。Kubernetes 能讓你立即將 GPU 加速深度學習和高效能運算 (HPC) 應用程式部署至多雲端 GPU 叢集。
Tesla 專用的 NVIDIA DeepStream 是一款 SDK,可針對智慧城市和大規模資料中心打造深度學習可擴充智慧影片分析 (IVA) 應用程式。結合可進行推論的 NVIDIA TensorRT、適用於轉碼、前置處理的 Video Codec SDK,以及資料庋用 API,以發揮 Tesla GPU 的功能。舉例來說,Tesla P4 GPU 可以即時並同時間解碼和分析最多 30 部 HD 影片串流。
Tesla T4 採用 NVIDIA Turing Tensor 核心,為 FP32、FP16、INT8 以及 INT4 精度推論,提供突破性的深度學習訓練效能。T4 具備 INT8 精度 130 兆次運算 (TOPS) 和 INT4 精度 260 兆次運算,擁有全球最高的推論效能。與 CPU 相比,不僅效能高達 40 倍,電源消耗只需 60%。功耗只需 75 瓦 (W),是邊緣端水平擴充伺服器的理想解決方案。
採用 NVIDIA Volta™ 的 Tesla V100 GPU 大幅提高資料中心的輸送量,使深度學習工作負載能從現今的海量資料中找出情資。一部配備一張 Tesla V100 的伺服器可處理的深度學習推論工作負載,可取代 50 部只搭載 CPU 的伺服器,因此你只要投入比以往更低的採購成本,就能大幅提升輸送量。
Tesla P4 GPU 可即時分析最多 39 部 HD 影片串流。採用專用的硬體加速解碼引擎,能與 NVIDIA CUDA® 核心共同進行推論。深度學習整合至製作流程後,客戶就能提供全新境界的智慧與創新功能,提升影片搜尋功能和其他影片相關服務。
NVIDIA TensorRT 為高效能神經網路推論加速器,可供推薦系統、語音辨識和機器翻譯等深度學習應用程式生產部署使用。TensorRT 能讓使用 32 或 16 位元資料訓練的神經網路在 Tesla P4 上針對降低精度的 INT8 作業最佳化,或是在 Tesla V100 上針對降低精度的 FP16 作業最佳化。 NVIDIA DeepStream SDK 利用 Tesla GPU 的功能,可同時解碼與分析影片串流。
NVIDIA 推論伺服器可以讓你輕鬆地將推論運用在解決方案,徹底發揮 GPU 的效能。NVIDIA 推論伺服器有立即可用的容器,這項微服務可以讓你透過簡易表現層狀態轉換 (REST) API 執行推論,適用於 TensorFlow、MXNet、Caffe2、MATLAB 和 NVIDIA TensorRT,或是任何支援 ONNX 標準之框架的任何模型。
Tesla T4: 全球最先進的推論加速器 | TESLA V100: 各種資料中心均適用的 GPU | Tesla P4: 適用於水平擴充伺服器,並可締造高節能性的 | Tesla P40: 適用於需提供推論輸送量的伺服器 | |
---|---|---|---|---|
單精度效能 (FP32) | 8.1 TFLOPS | 每秒 14 兆次浮點運算 (PCIe) 每秒 兆次浮點運算 (SXM2) |
每秒 5.5 兆次浮點運算 | 每秒 12 兆次浮點運算 |
半精度效能 (FP16) | 65 FP16 TFLOPS | 每秒 112 兆次浮點運算 (PCIe)每秒 125 兆次浮點運算 (SXM2) |
— | — |
整數運算 (INT8) | 130 INT8 TOPS | — | 22 兆次運算* | 47 兆次運算* |
GPU 記憶體 | 16GB | 16 GB HBM2 | 8 GB | 24 GB |
記憶體頻寬 | 320GB/s | 900 GB/秒 | 192 GB/秒 | 346 GB/秒 |
系統介面/尺寸 | Low-Profile PCI Express Form Factor | 雙插槽、PCI Express 標準版尺寸 SXM2/NVLink | PCI Express 短卡尺寸 | 雙插槽、PCI Express 標準版尺寸 |
電源 | 75 W | 250 W (PCIe) 300 W (SXM2) |
50 W/75 W | 250 W |
影片硬體加速引擎 | 1 個解碼引擎、2 個編碼引擎 | — | 1 個解碼引擎、2 個編碼引擎 | 1 個解碼引擎、2 個編碼引擎 |
Tesla V100、T4、P40 現已提供深度學習推論功能。