NVIDIA Mission Control

モデルを実行し、基本的な作業を自動化。

概要

世界で最も先進的な AI ファクトリーの専門知識をあらゆるビジネスに提供

NVIDIA Mission Control™ は、開発者のワークロードのスケジューリングやオーケストレーションから、監視と自律回復まで、AI ファクトリーのあらゆる側面を効率化するとともに、プラットフォーム チームが完全にサポートされたソフトウェアで効率的な運用と自信を持ってスケールできるようにします。これは、AI の最新のフロンティア向け NVIDIA BlackwellNVIDIA Rubin データセンターを支え、リアルタイムの可視化とパフォーマンス、電力、冷却の正確な制御を、AI ファクトリー ROI を最大化する常時稼働の耐障害性と組み合わせて提供します。Mission Control により、すべての企業は今日のハイパースケーラーの効率性で AI を運用し、AI トークン本番利用を高速化します。

AI ファクトリーの管理と実行

NVIDIA Mission Control は、クラスターのデプロイからワークロードのオーケストレーション、ビル管理システムの統合まで、AI 運用を簡素化し、すべて企業の俊敏性、回復力、ハイパースケール効率性を実現します。

ラック規模のハードウェアから、スケジュール可能な AI インフラへ

AI アーキテクトと HPC プラットフォームのオペレーターにとって、問題はハードウェアのラック設置と積み重ねだけではなく、ラックをエンドユーザー向けに安全で高性能で使いやすいリソースのセットに変えることです。 NVIDIA Mission Control などの検証済みのソフトウェア スタックは、マルチノード スケジューリング用のツールを提供し、Slurm と Kubernetes の両方をサポートしています。

テクノロジ

AI データ センターの運用とオーケストレーション

クラスターのライフサイクル全体を通じて、AI ファクトリーのデプロイと運用を簡素化します。

高度な電力最適化

電力の制約がある環境やコスト重視の環境において、NVIDIA の最新の電力イノベーションの検証済み実装を利用することで、電力を 85% に抑えつつ、性能スループットの 93% で運用することができます。

ビル管理システム統合

自動化と統合されたダッシュボードに支えられたシステムとデータセンター施設の連携強化により、迅速な漏洩検出を含む、電力および冷却イベントの制御を向上させます。

自律回復エンジン

手動の介入なしで、問題の特定、分離、回復を 10 倍高速化し、トレーニングと推論の実行を高速化し、開発者の生産性と組み込みのインフラの耐障害性を最大化します。

継続的なヘルスチェック

インフラのライフサイクル全体を通じて、ハードウェアとクラスターのパフォーマンスを検証します。NVIDIA の事前設定されたルールに基づいて自動アクションをトリガーするオプション付きのヘルス チェックにアクセスできます。

動的なワークロード オーケストレーション

含まれている NVIDIA Run:ai テクノロジで、GPU の可用性と利用率を向上させるか、Slurm と独自の Kubernetes をクラスター管理プラットフォームと統合できます。

柔軟で安全な構成

NVIDIA Mission Control サービスと信頼できる ISV ソリューションを統合することで、柔軟で安全な構成を実現し、検証済みの名前空間の分離を提供し、組織のニーズを満たします。

最新リリース

NVIDIA Mission Control 2.3

NVIDIA Mission Control 2.3 は、NVIDIA エコシステム全体で完全に統合されており、NVIDIA GB200 NVL72NVIDIA GB300 NVL72 をサポートしています。 サービス全体にわたる新しい統合認証と、仮想化された制御プレーンのオプションを追加し、柔軟性と拡張性を向上させます。 さらに、Mission Control はエアギャップ環境でのデプロイを提供し、漏洩検出検証チェックを提供します。 また、NVIDIA Blackwell アーキテクチャを搭載した NVIDIA DGX™ システムでも、自律回復エンジン スイートなど、Mission Control のすべての機能を利用できるようになりました。

NVIDIA Mission Control には、検証済みのワークフローにおける NVIDIA の最新の電力最適化イノベーションへのアクセスが含まれており、クラスター、システム、ワークロード レベルでアクションを監視および管理するための使いやすいグラフィカル インターフェイスが備わっています。Mission Control により、管理者はドメインの電力サービスにアクセスし、電力最適化のためのジョブを認識するクラスター全体の動的なポリシーを設定できます。

利点

NVIDIA Mission Control が選ばれる理由

即時の運用上の俊敏性

シームレスなマルチノードのトレーニングと推論オーケストレーション、サードパーティ ソフトウェアとの柔軟な統合、高度な電力と冷却の自動化により、AI ファクトリーの運用に俊敏性をもたらします。

広範な監視

すぐに利用できる Grafana ダッシュボードと常時稼働状態チェックにより、ワークロードの稼働時間、クラスター インフラ、施設を詳細に可視化できます。アラートの疲労を軽減し、パフォーマンスを最適化します。

組み込みの耐障害性

異常検出から分離まで、エンドツーエンドの自律回復エンジンで、最新のデータセンターの耐障害性を再定義します。このエンジンには、ジョブの高速再起動、ハードウェアの自動修復までが含まれます。

AI トークン生成の高速化

エンドツーエンドの検証済みワークフロー、収益可能性の向上のための継続的な運用、大規模な企業 AI の新標準向けの NVIDIA Enterprise サポートにより、AI ファクトリーの出力を最大化します。

パートナー

業界をリードするシステム プロバイダーと AI ファクトリーをデプロイして運用

大手システム プロバイダーが自社システム向けに NVIDIA Mission Control をテストおよび検証した上で構築した NVIDIA Grace™ Blackwell NVL72 を基盤とする AI ファクトリーの構成、検証、運用をしましょう。

ソリューション

世界最高レベルの AI ファクトリーに必要なすべて

NVIDIA は、AI ファクトリーのすべての構成要素を提供しています。 NVIDIA Mission Control と NVIDIA AI Enterprise は、最先端のインフラとワークロード管理、そして本番環境向け AI 開発者ツールを提供しており、企業はかつてないほど実用的な規模で、AI の変革的な力を活用できます。

NVIDIA DGX SuperPOD

AI の独自の要求に特化して構築されたリーダーシップクラスの AI インフラ。

NVIDIA DGX SuperPOD™ は、あらゆるユーザーとワークロードに妥協のないパフォーマンスを提供するターンキー AI データ センター インフラ ソリューションです。任意の NVIDIA DGX™ システムで構成可能な DGX SuperPOD は、最も要求の厳しい AI トレーニングおよび推論ワークロードのためのスケーラブルなパフォーマンスを備えたリーダーシップクラスの高速インフラを提供します。

NVIDIA AI Enterprise

開発者向けに構築されたツールでプロダクション AI を最適化するクラウドネイティブ ソフトウェア プラットフォーム。

NVIDIA AI Enterprise ソフトウェア スイートには、NVIDIA の最高水準のデータ サイエンス ツール、事前トレーニング済みモデル、最適化されたフレームワークなどが含まれ、NVIDIA のエンタープライズ サポートにより全面的に支援されています。 NVIDIA AI Enterprise は Mission Control 上で実行されるよう最適化されています。

次のステップ

さっそく始めませんか?

NVIDIA Mission Control で合理化された AI 運用を活用し、企業の AI ムーンショットを実現しましょう。

NVIDIA Mission Control のサポートが必要ですか?

NVIDIA DGX エンタープライズ サポートとサービスで、専門的なサポート、より速い結果、ガイダンスを入手してください。

NVIDIA Mission Control ドキュメント

NVIDIA Mission Control のユーザー ガイドとリリース ノートにアクセスできます。