NVIDIA Triton 管理式服務

透過節省資源的模型編排,在 Kubernetes 中自動部署多個 Triton 推論伺服器執行個體。

什麼是 NVIDIA Triton 管理式服務?

NVIDIA Triton™NVIDIA® AI 平台的一部分,提供一項名為Triton Management Service (TMS) 的全新管理功能,可自動在 Kubernetes 中部署多個 Triton 推理伺服器使用案例,並在 GPU 和CPU 上進行資源高效的模型編排。該軟體應用程式管理具有一個或多個 AI 模型的 Triton Inference 伺服器使用案例的部署,將模型分配給各個 GPU/CPU,並按框架有效地配置模型。 TMS 獨家隨企業級 AI 軟體平台 NVIDIA AI Enterprise 提供,可實現高效能和硬體利用率高的大規模推理部署。

探索 Triton 管理式服務的優勢

簡化部署

自動部署和管理 Kubernetes 上的 Triton 伺服器執行個體,並協助將不同框架中的模型分組,有效率地使用記憶體。

資源最大化

隨選載入模型,透過租用系統卸載不使用的模型,並將盡可能多的模型置於單一 GPU 伺服器上。

監控和自動擴充

監控每個 Triton 推論伺服器的運作狀況與容量,並根據延遲和硬體使用率自動擴充。

大規模推理

使用 Triton 管理式服務有效管理從單個模型到數百個模型的推理部署。在本地或任何公共雲上部署。

掌握來自 NVIDIA 的人工智慧推論最新動態。