マルチインスタンス GPU (MIG) は、各 NVIDIA A100 Tensor コア GPU のパフォーマンスと価値を高めます。MIG では、A100 GPU を 7 個ものインスタンスに分割し、それぞれに高帯域幅のメモリ、キャッシュ、コンピューティング コアを割り当てたうえで完全に分離できます。管理者は、すべてのジョブについてサービス品質 (QoS) が保証された適切なサイズの GPU を提供し、アクセラレーテッド コンピューティング リソースの使用率を最適化し、全ユーザーにリーチを拡張することで、規模を問わずあらゆるワークロードに対応できます。
MIG を利用すれば、1 つの A100 GPU で GPU リソースを最大 7 倍にすることができます。MIG があれば、研究者や開発者はこれまでにない多くのリソースと柔軟性を得られます。
MIG には、さまざまなインスタンス サイズを選択できる柔軟性があり、各ワークロードに適した規模で GPU をプロビジョニングできます。結果的に、利用率が最適化され、データ センターに対する投資が最大化されます。
MIG を使用すると、推論、トレーニング、ハイ パフォーマンス コンピューティング (HPC) といった複数のワークロードを、互いのレイテンシとスループットに影響を与えることなく単一 GPU 上で同時に実行できます。
MIG を使用しない場合、同じ GPU で実行されている複数のジョブ (各種の AI 推論リクエストなど) が、同一のリソース (メモリ帯域幅など) をめぐって競合することになります。メモリ帯域幅を多く消費するジョブがあると、他のジョブに十分な帯域幅を割り当てられなくなり、目標とするレイテンシを達成できないジョブがいくつか発生してしまいます。MIG を使用すれば、複数のインスタンスでジョブが同時に実行され、それぞれに専用のコンピューティング リソース、メモリ、メモリ帯域幅が割り当てられるため、予測可能なパフォーマンス、 サービス品質、最大 GPU 使用率を実現できます。
NVIDIA A100 GPU は異なるサイズの MIG インスタンスに分割できます。たとえば、管理者はインスタンスを 2 つ作成し、メモリをいずれも 20 ギガバイトにしたり、10 ギガバイトのインスタンスを 3 つ作成したり、5 ギガバイトのインスタンスを 7 つ作成したりできます。あるいは、それらを組み合わせることもできます。 システム管理者は、ワークロードの種類が異なるときに、ユーザーに適切なサイズの GPU を提供できます。
MIG インスタンスは構成を動的に変更させることもできます。管理者は、ユーザーや業務上の要求が変わったときに、それに合わせて GPU リソースを変更できます。たとえば、昼はスループットの低い推論のために 7 つの MIG インスタンスを使用し、夜はディープラーニング トレーニングのために 1 つの大きな MIG インスタンスに再構成することが可能です。
MIG インスタンスごとに専用のハードウェア リソース セットが与えられ、計算処理、メモリ、キャッシュに使用されます。ワークロードのサービス品質 (QoS) と故障分離で効果を発揮します。つまり、あるインスタンスで実行されているアプリケーションに問題が発生しても、他のインスタンスで実行されているアプリケーションには影響が出ません。 また、対話式のモデル開発、ディープラーニング トレーニング、AI 推論、HPC アプリケーションといったさまざまな種類のワークロードを異なるインスタンスで実行できます。インスタンスは並列で実行されるため、ワークロードも仮想ではない同じ A100 GPU で並列で実行されますが、分離され、安全です。
MIG は、AI モデル開発や低遅延推論などのワークロードに最適です。そのようなワークロードでは A100 が最大限に活用され、各インスタンスに割り当てられたメモリで適切に実行されます。
このデモでは、AI とハイ パフォーマンス コンピューティング (HPC) のワークロードを同じ A100 GPU で同時に実行します。
このデモでは、MIG の単一スライス上での推論パフォーマンスを示し、それを A100 全体までリニアに拡張します。
MIG は、IT チームや DevOps チームによる展開を効率化する目的で開発されています。
各 MIG インスタンスはアプリケーションに対してスタンドアロン GPU のように振る舞います。そのため、CUDA® プログラミング モデルに変更はありません。NGC™ にあるようなコンテナーの AI モデルや HPC アプリケーションは、NVIDIA Container Runtime を利用することで、MIG インスタンス上で直接実行できます。MIG インスタンスは Kubernetes のようなコンテナー オーケストレーターでは追加の GPU リソースとして扱われます。Kubernetes では、特定の GPU インスタンス内で実行するよう、コンテナー化されたワークロードをスケジュールできます。この機能はまもなく、Kubernetes 向け NVIDIA デバイス プラグインを通じて 利用できるようになります。
組織は NVIDIA Virtual Compute Server (vCS) を利用することで、MIG GPU インスタンスで、ライブ マイグレーションやマルチテナンシーなど、ハイパーバイザーベースのサーバー仮想化の管理、監視、運用上の利点を最大限まで活用できます。
オンプレミスのベアメタル A100、クラウド、エッジで MIG を利用。
コンテナー化されたアプリケーションを MIG インスタンスで実行。
MIG インスタンスに Kubernetes ポッドをスケジューリング。
仮想マシン内の MIG インスタンスでアプリケーションを実行。
NVIDIA Ampere アーキテクチャの詳細をご覧ください。