NVIDIA Triton 推論伺服器

為任何平台上的任何應用程式部署、執行和擴充人工智慧。

適用於所有人工智慧工作負載的推論

使用 NVIDIA Triton™ 在 GPU、CPU 或其他處理器上的任何架構,執行經過訓練的機器學習或深度學習模型推論。Triton 是 NVIDIA 人工智慧平台的一部分,可透過 NVIDIA AI Enterprise 使用,此開放原始碼軟體可將所有工作負載的人工智慧模型部署和執行標準化。

探索 Triton 的優勢

支援所有訓練和推論框架

使用 Triton 在任何主要框架上部署人工智慧模型,包括 TensorFlow、PyTorch、Python、ONNX、NVIDIA® TensorRT™、RAPIDS™ cuML、XGBoost、scikit-learn RandomForest、OpenVINO,以及自訂 C++ 等。

適用於任何平台的高效能推論

透過動態批次處理、並行執行、最佳設定以及串流音訊和視訊,將輸送量和使用率提升到最高。Triton 支援所有 NVIDIA GPU、x86 和 Arm® CPU,以及 AWS Inferentia。

專為開發營運和機器學習作業設計的開放原始碼

將 Triton 整合至開發營運和機器學習作業解決方案,例如用於擴充的 Kubernetes 和用於監控的 Prometheus。也適用於所有主要雲端和本機的人工智慧和機器學習作業平台。

企業級安全性、管理性和 API 穩定性

NVIDIA AI Enterprise 包含 NVIDIA Triton 和 Triton 管理式服務,是一款安全且可立即生產的人工智慧軟體平台,專為加速實現價值的時間而設計,並提供支援、安全性和 API 穩定性。

立即開始使用 Triton

購買 NVIDIA AI Enterprise 搭配 Triton 進行生產部署

購買 NVIDIA AI Enterprise,其中包含用於生產推論的 NVIDIA Triton 和 Triton 管理式服務。

下載用於開發的容器和程式碼

Triton 容器可在 NVIDIA NGC™ 上取得,也可在 GitHub 上以開放原始碼的形式取得。

Triton 管理式服務

透過 GPU 和 CPU 上的資源效率模型協調,在 Kubernetes 中自動部署多個 Triton 推論伺服器執行個體。

功能與工具

大型語言模型推論

TensorRT-LLM 可用於定義、最佳化及執行大型語言模型 (LLM) ,以進行生產環境下推論的開源庫。此平台在開放原始碼 Python API 中維持 FasterTransformer 的核心功能,並搭配 TensorRT 的深度學習編譯器,可以快速支援全新模型和自訂功能。

模型集成

許多現代人工智慧工作負載需要執行多個模型,且每次查詢通常都需要預先與後製處理步驟。Triton 支援模型集成和流程,可以在 CPU 或 GPU 上執行集成的不同部分,並可以在集成中使用多個框架。

樹狀模型

Triton 中的森林推論函式庫 (FIL) 後端支援在 CPU 和 GPU 上,對具有解釋性 (SHAP 值) 的樹狀模型提供高效能推論的支援。支援 XGBoost、LightGBM、scikit-learn RandomForest、RAPIDS cuML RandomForest 和其他 Treelite 格式的模型。

NVIDIA PyTriton

PyTriton 提供簡單的介面,讓 Python 開發人員可以使用 Triton 提供任何服務,包括模型、簡單處理函數或完整推論流程。這種在 Python 中對 Triton 的原生支援可快速製作原型,並測試機器學習模型的效能和效率。單行程式碼就能開啟 Triton,並提供動態批次處理、並行模型執行以及 GPU 和 CPU 支援等優點。這樣就不需要設定模型儲存庫和轉換模型格式。無需修改即可使用現有的推論流程程式碼。

NVIDIA Triton 模型分析工具

Triton 模型分析工具可自動評估 Triton 推論伺服器中的模型部署設定,例如批次大小、精度和目標處理器上並行執行的執行個體。此工具協助選擇最佳設定,以滿足應用程式服務品質 (QoS) 的限制,例如延遲、輸送量和記憶體需求,並減少尋找最佳設定所需的時間。此工具也支援模型集成和多模型分析。

客戶案例

瞭解 Amazon 如何運用 NVIDIA 人工智慧將推論速度提升高達 5 倍,進而提升客戶滿意度。

瞭解美國運通如何以 50 倍的速度分析數千萬筆日常交易,進而改善詐騙偵測。

瞭解西門子能源公司如何透過人工智慧遠端監控漏油、異常噪音等狀況,強化檢查。

瞭解 Microsoft Teams 如何使用 Triton,以極低的延遲,來最佳化多種語言的即時字幕和轉譯。

瞭解 NIO 如何透過將 NVIDIA Triton 整合至自駕推論流程,以達到低延遲的推論工作流程。

更多資源

取得簡介

瞭解 Triton 推論伺服器的主要功能, 可協助您在生產環境中輕鬆部署、執行和擴充人工智慧模型。

專家見解

探索推論相關的 GTC 演講,並開始使用 Triton 推論伺服器。

探索技術部落格

閱讀有關 Triton 推論伺服器的部落格文章。

查看電子書

探索人工智慧推論的現代領域、公司的產品使用案例,以及真實世界中的挑戰和解決方案。

掌握來自 NVIDIA 的人工智慧推論最新動態。