NVIDIA Triton Inference Server

あらゆるプラットフォームであらゆるアプリケーションのために AI を展開、実行、拡張する。

あらゆる AI ワークロードのための推論

NVIDIA Triton™ なら、GPU や CPU など、あらゆるプロセッサのあらゆるフレームワークから、トレーニング済みの機械学習モデルやディープラーニング モデルで推論を実行できます。NVIDIA AI プラットフォームの一部であり、NVIDIA AI Enterprise でご利用いただける Triton は、AI モデルの展開と実行をあらゆるワークロードを対象に標準化するオープンソース ソフトウェアです。

Triton のメリットを見る

あらゆるトレーニング フレームワークと推論フレームワークをサポート

Triton を利用すれば、TensorFlow、PyTorch、Python、ONNX、NVIDIA® TensorRT™、RAPIDS™ cuML、XGBoost、scikit-learn RandomForest、OpenVINO、カスタム C++ など、あらゆるメジャー フレームワークに AI モデルを展開できます。

あらゆるプラットフォームで高度な推論

動的バッチ処理、同時実行、最適構成、ストリーミング オーディオ/ビデオによりスループットと利用率を最大化します。Triton では、すべての NVIDIA GPU、x86 CPU、Arm® CPU、AWS Inferentia がサポートされています。

オープンソースであり、DevOps/MLOps 向けに設計

Triton は拡張用の Kubernetes や監視用の Prometheus のような DevOps/MLOps ソリューションに統合できます。また、すべての主要なクラウド、オンプレミス AI、MLOps プラットフォームで使用できます。

エンタープライズグレードのセキュリティ、管理性、安定した API

NVIDIA AI Enterprise (NVIDIA Triton や Triton 管理サービスなど) は、サポート、セキュリティ、安定した API で「価値創出までの時間」を短縮する、安全で運用環境対応の AI ソフトウェア プラットフォームです。

Triton から始める

NVIDIA AI Enterprise と Triton を購入し、運用環境に展開する

NVIDIA AI Enterprise をお買い求めください。運用環境推論のための NVIDIA Triton と Triton 管理サービスが含まれております。

開発用のコンテナーとコードをダウンロードする

Triton コンテナーは NVIDIA NGC™ で入手できます。また、GitHub でオープンソース コードとして入手できます。

Triton 管理サービス

Kubernetes で複数の Triton Inference Server インスタンスの展開を自動化します。GPU と CPU でリソース効率に優れたモデル オーケストレーションを利用します。

特長とツール

大規模言語モデル推論

TensorRT-LLM は、実運用における推論のための大規模言語モデル (LLM) を定義、最適化し、実行するためのオープンソース ライブラリです。FasterTransformer のコア機能と TensorRT のディープラーニング コンパイラをオープンソースの Python API に収め、新しいモデルやカスタマイズに瞬時に対応します。

モデル アンサンブル

現代の AI ワークロードの多くでは複数のモデルを実行する必要があり、しばしば、クエリごとに事前処理手順と事後処理手順がともないます。Triton はモデル アンサンブルとパイプラインをサポートし、CPU や GPU でアンサンブルのさまざまな部分を実行できます。また、アンサンブル内部で複数のフレームワークを許可します。

ツリーベース モデル

Triton の Forest Inference Library (FIL) バックエンドは、CPU と GPU でツリーベース モデルのハイパフォーマンス推論を実行し、その推論を説明する (SHAP 値) ためのサポートを提供します。 XGBoost、LightGBM、scikit-learn RandomForest、RAPIDS cuML RandomForest のモデルと、Treelite 形式のその他のモデルがサポートされます。

NVIDIA PyTriton

PyTriton のシンプルなインターフェイスでは、Python 開発者は Triton を利用し、モデル、単純な処理関数、インターフェイス パイプライン全体など、あらゆるものにサービスを提供できます。Python では Triton がネイティブ サポートされることで、機械学習モデルを短時間で効果的かつ効率的に試作し、試験できます。1 行のコードで Triton が起動し、動的バッチ処理、同時モデル実行、GPU/CPU サポートなどのメリットが与えられます。そのため、モデル リポジトリを設定する必要も、モデルの形式を変換する必要もありません。既存の推論パイプライン コードを変更せずに使用できます。

NVIDIA Triton Model Analyzer

Triton Model Analyzer は、バッチ サイズ、精度、ターゲット プロセッサ上の同時実行インスタンスなど、Triton Inference Server のモデル展開構成を自動評価するツールです。レイテンシ、スループット、メモリ要件など、アプリケーションのサービス品質 (QoS) 制約を満たす最適な構成を選択する作業を助けます。最適な構成を見つけるまでの時間が短縮されます。このツールは、モデル アンサンブルとマルチモデル解析にも対応しています。

お客様の事例

Amazon では、NVIDIA AI による顧客満足度を推論スピードを 5 倍にすることで改善しました。その手法をご覧ください。

American Express では、連日の無数の取引を 50 倍の速さで分析することで詐欺検出を改善しました。その手法をご覧ください。

Siemens Energy では、漏れや異常な音などを AI ベースでリモート監視することで検査機能を強化しました。その手法をご覧ください。

Microsoft Teams は Triton を使用することで、リアルタイム、複数言語、超低レイテンシで字幕を付け、文字を書き起こす作業を最適化しています。その手法をご覧ください。

NIO では、NVIDIA Triton を自動運転推論パイプラインに統合することで低レイテンシ推論ワークフローを達成しました。その手法をご覧ください。

その他の資料

概要を見る

Triton Inference Server の主な特長を理解してください。 運用環境で AI モデルを展開、実行、拡張する上で役立ちます。

専門家の講演を聴く

推論に関する GTC セッションと Triton Inference Server を始める方法をご覧ください。

技術ブログを見る

Triton Inference Server に関するブログを読む。

e-book を読む

AI 推論を取り巻く状況、会社の運用環境ユース ケース、実際の課題と解決策をご覧ください。

AI 推論関連の最新情報を NVIDIA から受け取る。