リソース効率に優れたモデル オーケストレーションにより、Kubernetes における複数の Triton Inference Server インスタンスの展開を自動化します。
NVIDIA® AI プラットフォームの一部である NVIDIA Triton™ は、GPU および CPU 上のリソース効率に優れたモデル オーケストレーションを使用して、Kubernetes での複数の Triton Inference Server インスタンスのデプロイを自動化する Triton Management Service (TMS) と呼ばれる新機能を提供します。このソフトウェア アプリケーションは、1 つ以上の AI モデルを含む Triton Inference Server インスタンスのデプロイを管理し、モデルを個々の GPU または CPU に割り当て、フレームワークごとにモデルを効率的に配置します。 エンタープライズ グレードの AI ソフトウェア プラットフォームである NVIDIA AI Enterprise でのみ利用可能な TMS は、高いパフォーマンスとハードウェア利用率で大規模な推論の展開を可能にします。
Kubernetes での Triton サーバー インスタンスの展開と管理を自動化し、メモリが効率的に利用されるよう、さまざまなフレームワークのモデルをグループ化します。
オンデマンドでモデルを読み込み、使用されていないときはリース システム経由でモデルを解放し、単一の GPU サーバーにできるだけ多くのモデルを配置します。
レイテンシとハードウェア使用率に基づいて各 Triton Inference Server の正常性、容量、自動スケールをモニタリングします。
Triton Management Service を使用して、単一モデルから数百のモデルまで、推論展開を効率的に管理します。オンプレミスまたはパブリック クラウドでも展開することができます。
本番推論向け Triton Inference Server と Triton Management Service を含む NVIDIA AI Enterprise をご購入ください。
無料の厳選されたラボを備えた Triton Management Service へのアクセスにお申し込みください。すぐに使えるソフトウェア、サンプル データ、アプリケーションを備えたステップバイステップのガイド付きラボにアクセスすることができます。
複数の Triton Inference Server インスタンスのデプロイの自動化に役立つ TMS の主要な機能を理解します。
より高速で正確な AI 推論を推進するために必要なすべてのハードウェアとソフトウェアが含む、NVIDIA のエンドツーエンド AI 推論プラットフォームをご覧ください。
最新の推論の更新情報と発表についてご覧ください。
AI 推論の最新状況、企業による実例、現実世界の課題と解決策を発見することができます。
AI 推論関連の最新情報を NVIDIA から受け取る。