NVIDIA マルチインスタンス GPU

1 つの GPU に 7 つの独立したインスタンス

マルチインスタンス GPU (MIG) は、NVIDIA H100、A100、A30 Tensor コア GPU のパフォーマンスと価値を高めます。MIG では、GPU を 7 個ものインスタンスに分割し、それぞれに高帯域幅のメモリ、キャッシュ、コンピューティングコアを割り当てたうえで完全に分離できます。これによりサービス品質 (QoS) が保証され、アクセラレーテッドコンピューティングリソースをあらゆるユーザーに届けることができ、管理者はあらゆるワークロードに対応できます。

利点の概要

GPU アクセスを拡大する

MIG を利用すれば、1 つの GPU で GPU リソースを最大 7 倍にすることができます。MIG があれば、研究者や開発者はこれまでにない多くのリソースと柔軟性を得られます。

GPU 利用率を最適化する

MIG には、さまざまなインスタンスサイズを選択できる柔軟性があり、各ワークロードに適した規模で GPU インスタンスをプロビジョニングできます。結果的に、利用率が最適化され、データセンターに対する投資が最大化されます。

ワークロードを同時実行する

MIG を使用すると、推論、トレーニング、ハイパフォーマンスコンピューティング (HPC) といった複数のワークロードを、互いのレイテンシとスループットに影響を与えることなく単一 GPU 上で同時に実行できます。タイムスライシングとは異なり、各ワークロードは並列で実行され、パフォーマンスが高くなります。

テクノロジの仕組み

MIG を使用しない場合、同じ GPU で実行されている複数のジョブ (各種の AI 推論リクエストなど) が、同一のリソースをめぐって競合することになります。メモリ帯域幅を多く消費するジョブがあると、他のジョブに十分な帯域幅を割り当てられなくなり、目標とするレイテンシを達成できないジョブがいくつか発生してしまいます。MIG を使用すれば、複数のインスタンスでジョブが同時に実行され、それぞれに専用のコンピューティングリソース、メモリ、メモリ帯域幅が割り当てられるため、パフォーマンスが予測可能になり、QoS が確保され、GPU が最大限まで活用されます。

必要に応じてインスタンスをプロビジョニングし、構成する

GPU は異なるサイズの MIG インスタンスに分割できます。たとえば、NVIDIA A100 40GB の場合、管理者は 20GB メモリのインスタンスを 2 つ作成するか、10 GB メモリのインスタンスを 3 つ作成するか、5 GB メモリのインスタンスを 7 つ作成できます。または組み合わせて。

MIG インスタンスは構成を動的に変更させることもできます。管理者は、ユーザーや業務上の要求が変わったときに、それに合わせて GPU リソースを変更できます。たとえば、昼はスループットの低い推論のために 7 つの MIG インスタンスを使用し、夜はディープラーニングトレーニングのために 1 つの大きな MIG インスタンスに再構成することが可能です。

ワークロードを並列で安全に実行する

専用のコンピューティング、メモリ、キャッシュのハードウェアリソースを割り当てることで、各 MIG インスタンスで QoS が確保され、故障が分離されます。つまり、あるインスタンスで実行されているアプリケーションに問題が発生しても、他のインスタンスで実行されているアプリケーションには影響が出ません。

また、対話式のモデル開発、ディープラーニングトレーニング、AI 推論、HPC アプリケーションといったさまざまな種類のワークロードを異なるインスタンスで実行できることを意味します。インスタンスが並列で実行されるため、ワークロードも同じ物理 GPU 上で並列実行されますが、分離されています。

NVIDIA H100 の MIG

NVIDIA Hopper™ アーキテクチャ、H100 は MIG の機能を強化するものです。最大 7 個の GPU インスタンスで仮想環境のマルチテナント/マルチユーザー構成をサポートします。コンフィデンシャルコンピューティングによってハードウェアおよびハイパーバイザーレベルで各インスタンスが分離されるため、安全です。MIG インスタンスごとに専用のビデオデコーダーが与えられ、共有インフラストラクチャで安定したハイスループットのインテリジェントビデオ解析 (IVA) が実現します。Hopper の同時実行 MIG プロファイリングを利用すると、管理者はユーザーのために正しいサイズの GPU 高速化を監視し、リソースを複数のユーザーに割り当てることができます。

研究者のワークロードが比較的少ない場合、完全なクラウドインスタンスを借りる代わりに、MIG を利用して GPU の一部を安全に分離することを選択できます。保存中、移動中、使用中のデータが安全なため、安心です。これにより、クラウドサービスプロバイダーの柔軟性が向上し、より少ない顧客機会に価格を設定し、対処することができます。

実際の MIG を見る

単一の A100 GPU で複数のワークロードを実行する

このデモでは、AI とハイパフォーマンスコンピューティング (HPC) のワークロードを同じ A100 GPU で同時に実行します。

ビデオを見る

マルチインスタンス GPU でパフォーマンスと使用率を高める

このデモでは、MIG のシングルスライスでの推論パフォーマンスを示し、A100 全体で線形にスケーリングします。

ビデオを見る

IT と DevOps 向けに開発

MIG では、IT と DevOps のチームが GPU を細かくプロビジョニングできます。各 MIG インスタンスは、アプリケーションに対してスタンドアロン GPU のように振る舞います。そのため、CUDA® プラットフォームに変更はありません。MIG は、すべての主要なエンタープライズコンピューティング環境で使用できます。

データセンターからエッジまでデプロイ

オンプレミス、クラウド、エッジで MIG を利用。

コンテナーを活用

コンテナー化されたアプリケーションを MIG インスタンスで実行。

Kubernetes をサポート

MIG インスタンスに Kubernetes ポッドをスケジューリング。

アプリケーションを仮想化

仮想マシン内の MIG インスタンスでアプリケーションを実行。

MIG の仕様

	H100	A100
コンフィデンシャルコンピューティング	対応	-
インスタンスの種類	7x 10GB 4x 20GB 2x 40GB (より多くの計算処理能力) 1x 80GB	7x 10GB 3x 20GB 2x 40GB 1x 80GB
GPU のプロファイリングと監視	すべてのインスタンスで同時実行	インスタンスは一度に 1 つだけ
テナントの保護	7x	1x
メディアデコーダー	インスタンスあたりの専用 NVJPEG と NVDEC	限定オプション

仕様は変更される場合があります。

NVIDIA Hopper アーキテクチャの詳細を見る

ホワイトペーパーを読む

NVIDIA Ampere アーキテクチャの詳細を見る