透過節省資源的模型編排,在 Kubernetes 中自動部署多個 Triton 推論伺服器執行個體。
NVIDIA Triton™ 是 NVIDIA® AI 平台的一部分,提供一項名為Triton Management Service (TMS) 的全新管理功能,可自動在 Kubernetes 中部署多個 Triton 推理伺服器使用案例,並在 GPU 和CPU 上進行資源高效的模型編排。該軟體應用程式管理具有一個或多個 AI 模型的 Triton Inference 伺服器使用案例的部署,將模型分配給各個 GPU/CPU,並按框架有效地配置模型。 TMS 獨家隨企業級 AI 軟體平台 NVIDIA AI Enterprise 提供,可實現高效能和硬體利用率高的大規模推理部署。
自動部署和管理 Kubernetes 上的 Triton 伺服器執行個體,並協助將不同框架中的模型分組,有效率地使用記憶體。
隨選載入模型,透過租用系統卸載不使用的模型,並將盡可能多的模型置於單一 GPU 伺服器上。
監控每個 Triton 推論伺服器的運作狀況與容量,並根據延遲和硬體使用率自動擴充。
使用 Triton 管理式服務有效管理從單個模型到數百個模型的推理部署。在本地或任何公共雲上部署。
掌握來自 NVIDIA 的人工智慧推論最新動態。