運用 NVIDIA TensorRT 徹底釋放 NVIDIA GPU 的潛能 NVIDIA® TensorRT™ 高效能推論平台是釋放 NVIDIA Tensor 核心 GPU 強悍性能的關鍵。相較於僅使用 CPU 的平台,TensorRT 不只可以提供高達 40 倍的更大輸送量,還能大幅降低延遲情況。可以在任何深度學習框架中使用 TensorRT,還能快速地最佳化、驗證並在正式環境中部署訓練完成的神經網路。NVIDIA NGC 目錄中也提供 TensorRT。
使用 NVIDIA TRITON 推論伺服器簡化部署 原名 TensorRT 推論伺服器的 NVIDIA Triton 推論伺服器是一款開放原始碼應用軟體,可簡化深度學習模型在正式環境中的部署。Triton 推論伺服器讓團隊從本機存放區的任何框架 (TensorFlow、PyTorch、TensorRT Plan、Caffe、MXNet 或自訂)、Google Cloud Platform 或任何 GPU 或 CPU 架構上的 AWS S3 部署訓練完成的人工智慧模型。可在單一 GPU 上同時執行多個模型以發揮最高使用率,並整合 Kubernetes 以進行協調流程、指標和自動擴充。 深入瞭解
效能整合且可擴充的深度學習推論 透過單一整合式架構訓練所有深度學習框架上的神經網路,經過 NVIDIA TensorRT 最佳化後,再部署到邊緣端進行即時推論。NVIDIA 透過 NVIDIA DGX™ 系統 、 NVIDIA Tensor 核心 GPU 、 NVIDIA Jetson™ 與 NVIDIA DRIVE™、如 MLPerf 基準套件所示,NVIDIA 提供了一個端對端、完全可擴展的深度學習平台。
大幅節省成本 為了讓伺服器達到最高生產力,資料中心管理員必須在效能和效率間做出取捨。在使用深度學習推論應用程式和服務時,單一 NVIDIA T4 伺服器可以取代多台 CPU 伺服器,進而減少能源需求,並且省下採購和營運成本。