透過節省資源的模型編排,在 Kubernetes 中自動部署多個 Triton 推論伺服器執行個體。
NVIDIA Triton™ 是 NVIDIA® AI 平台的一部分,提供一項名為Triton Management Service (TMS) 的全新管理功能,可自動在 Kubernetes 中部署多個 Triton 推理伺服器使用案例,並在 GPU 和CPU 上進行資源高效的模型編排。該軟體應用程式管理具有一個或多個 AI 模型的 Triton Inference 伺服器使用案例的部署,將模型分配給各個 GPU/CPU,並按框架有效地配置模型。 TMS 獨家隨企業級 AI 軟體平台 NVIDIA AI Enterprise 提供,可實現高效能和硬體利用率高的大規模推理部署。
自動部署和管理 Kubernetes 上的 Triton 伺服器執行個體,並協助將不同框架中的模型分組,有效率地使用記憶體。
隨選載入模型,透過租用系統卸載不使用的模型,並將盡可能多的模型置於單一 GPU 伺服器上。
監控每個 Triton 推論伺服器的運作狀況與容量,並根據延遲和硬體使用率自動擴充。
使用 Triton 管理式服務有效管理從單個模型到數百個模型的推理部署。在本地或任何公共雲上部署。
購買結合 Triton Inference Server 和 Triton Management Service 的 NVIDIA AI Enterprise 套件,用於生產推論
申請 Triton 管理式服務以及免費策劃實驗室,其中包含即用軟體、實例資料和應用程式的分步指導實驗室。
了解 TMS 的關鍵功能,有助於自動部署多個 Triton 推理服務器實例。
探索 NVIDIA 的端到端 AI 推理平台,其中包括驅動更快且更準確的 AI 推理所需的所有硬體和軟體。
了解最新的推理更新及公告。
探索人工智慧推理的現代景觀、公司的生產實例,與現實世界的挑戰及解決方案。
掌握來自 NVIDIA 的人工智慧推論最新動態。