NVIDIA Triton Management Service

リソース効率に優れたモデルオーケストレーションにより、Kubernetes における複数の Triton Inference Server インスタンスの展開を自動化します。

はじめに
利点

はじめに
利点

NVIDIA Triton 管理サービスとは?

NVIDIA® AI プラットフォームの一部である NVIDIA Triton™ は、GPU および CPU 上のリソース効率に優れたモデルオーケストレーションを使用して、Kubernetes での複数の Triton Inference Server インスタンスのデプロイを自動化する Triton Management Service (TMS) と呼ばれる新機能を提供します。このソフトウェアアプリケーションは、1 つ以上の AI モデルを含む Triton Inference Server インスタンスのデプロイを管理し、モデルを個々の GPU または CPU に割り当て、フレームワークごとにモデルを効率的に配置します。エンタープライズグレードの AI ソフトウェアプラットフォームである NVIDIA AI Enterprise でのみ利用可能な TMS は、高いパフォーマンスとハードウェア利用率で大規模な推論の展開を可能にします。

技術ドキュメントを読む

Triton 管理サービスの利点

シンプルな導入

Kubernetes での Triton サーバーインスタンスの展開と管理を自動化し、メモリが効率的に利用されるよう、さまざまなフレームワークのモデルをグループ化します。

リソースの最大化

オンデマンドでモデルを読み込み、使用されていないときはリースシステム経由でモデルを解放し、単一の GPU サーバーにできるだけ多くのモデルを配置します。

モニタリングと自動スケーリング

レイテンシとハードウェア使用率に基づいて各 Triton Inference Server の正常性、容量、自動スケールをモニタリングします。

大規模推論

Triton Management Service を使用して、単一モデルから数百のモデルまで、推論展開を効率的に管理します。オンプレミスまたはパブリッククラウドでも展開することができます。

AI 推論関連の最新情報を NVIDIA から受け取る。

登録する