透過 NVIDIA Triton™ 推論伺服器,在任何處理器 (GPU、CPU 或其他) 上的任何框架,在經過訓練的機器學習或深度學習模型上進行推論。Triton 推論伺服器是一款開放原始碼軟體,可標準化每個工作負載的人工智慧模型部署和執行。它是 NVIDIA 人工智慧平台的一部分,可透過 NVIDIA AI Enterprise 提供。
Model Analyzer 可縮短找到最佳模型部署配置所需的時間,例如批次大小、精準度和並行執行個體。這有助於選擇最佳配置,以符合應用程式在延遲、傳輸量和記憶體上的需求。
透過 Triton 推論伺服器,在任何主要架構部署人工智慧模型,包括 TensorFlow、PyTorch、Python、ONNX、NVIDIA® TensorRT™、RAPIDS™ cuML、XGBoost、scikit-learn RandomForest、OpenVINO、客製化 C++ 等。
透過動態批次處理、並行執行、最佳配置以及串流音訊和影片,將傳輸量和使用率最大化。Triton 推論伺服器支援所有 NVIDIA GPU、x86、Arm CPU 和 AWS Inferentia。
將 Triton 推論伺服器整合到 DevOps 和 MLOps 解決方案,例如適用於擴充的 Kubernetes 和適用於監控的 Prometheus。也可用於所有主要的雲端和本機人工智慧和 MLOps 平台。
NVIDIA AI Enterprise (包括 NVIDIA Triton 推論伺服器) 是一款安全、可用於實際部署環境的人工智慧軟體平台,旨在透過支援、安全性和 API 穩定性加速實現價值。
使用正確的工具與技術,實現 AI 在任何平台上的部署、運行和擴展,以滿足各種應用需求。
瞭解產業領導者如何利用 Triton 推論伺服器推動創新。
Triton 推論伺服器可支援組織將特定框架的推論伺服器整合到統一的平台中。但它並不是為每個人工智慧框架部署及管理獨立的伺服器,而是充當單一的統一伺服器,藉此降低推論服務成本。Triton 推論伺服器支援所有主要的人工智慧框架,包括 PyTorch、TensorFlow、TensorRT-LLM、VLLM、TensorRT、ONNX 與 OpenVINO。
Triton 推論伺服器可以執行自動化掃描,在許多模型並行和批次大小配置中測試延遲和傳輸量。可支援開發人員快速識別出符合服務水平協議的最佳配置,且無需任何手動作業。對於 LLM 模型,Triton 推論伺服器可自動產生 token 並提供部署指標,例如 token 至 token 的延遲、每秒 token 的數量 。這項功能加速辨識及部署最有效率的 LLM 部署設定。
透過 Triton 推論伺服器,組織可以輕鬆建置模型組合。可提供一種低程式碼工具,將人工智慧模型順暢連接至統一的工作流程,並且可以透過單一推論要求觸發。這樣組織便可以整合處理前後的工作流程,無需人工編寫程式碼。Triton 推論伺服器也支援在 CPU 上將處理前後的工作進行排程,簡化整個工作流程。
Triton 推論伺服器以 Docker 容器為名,適合在本機、雲端或邊緣裝置上部署。可從各大雲端供應商 (如 Amazon SageMaker、Azure ML Studio、Google Vertex AI 與 OCI Data Science) 深度整合至頂尖的機器學習營運 (MLOps) 人工智慧工具。對於雲端部署,Triton 推論伺服器可以透過簡單的命令列旗標輕鬆打造,顯著縮短執行時間並符合企業的治理規範。
利用正確的工具與技術,建立及部署可完全客製化、多語言、語音和翻譯人工智慧應用程式。
探索著手開發 NVIDIA Riva 所需的一切,包括最新文件、教學課程與技術部落格等。
請與 NVIDIA 產品專家討論,瞭解如何利用 NVIDIA AI Enterprise 的安全性、API 穩定性與支援,讓產品從試產階段順利進入部署環境。