NVIDIA Triton Management Service

リソース効率に優れたモデル オーケストレーションにより、Kubernetes における複数の Triton Inference Server インスタンスの展開を自動化します。

NVIDIA Triton 管理サービスとは?

NVIDIA® AI プラットフォームの一部である NVIDIA Triton™ は、GPU および CPU 上のリソース効率に優れたモデル オーケストレーションを使用して、Kubernetes での複数の Triton Inference Server インスタンスのデプロイを自動化する Triton Management Service (TMS) と呼ばれる新機能を提供します。このソフトウェア アプリケーションは、1 つ以上の AI モデルを含む Triton Inference Server インスタンスのデプロイを管理し、モデルを個々の GPU または CPU に割り当て、フレームワークごとにモデルを効率的に配置します。 エンタープライズ グレードの AI ソフトウェア プラットフォームである NVIDIA AI Enterprise でのみ利用可能な TMS は、高いパフォーマンスとハードウェア利用率で大規模な推論の展開を可能にします。

Triton 管理サービスの利点

シンプルな導入

Kubernetes での Triton サーバー インスタンスの展開と管理を自動化し、メモリが効率的に利用されるよう、さまざまなフレームワークのモデルをグループ化します。

リソースの最大化

オンデマンドでモデルを読み込み、使用されていないときはリース システム経由でモデルを解放し、単一の GPU サーバーにできるだけ多くのモデルを配置します。

モニタリングと自動スケーリング

レイテンシとハードウェア使用率に基づいて各 Triton Inference Server の正常性、容量、自動スケールをモニタリングします。

大規模推論

Triton Management Service を使用して、単一モデルから数百のモデルまで、推論展開を効率的に管理します。オンプレミスまたはパブリック クラウドでも展開することができます。

AI 推論関連の最新情報を NVIDIA から受け取る。