Cosmos 3
ネイティブな推論、世界およびアクションの生成機能を備えた初のOmni モデル。Mixture-of-Transformers を基盤として構築されています。
複雑な現実世界のシナリオ全体でオブジェクト、相互作用、意図を推論するためのビジョン言語モデル (VLM) として使用します。
品質検査、公共安全、交通監視、ロジスティクス、自動運転の分野にわたるリアルタイムアラートと高密度キャプショニング。
Cosmos 3 を世界アクションモデル (WAM) のバックボーンとして活用することで、ロボットのポリシー学習を高速化できます。
専用カメラと身体性データで、汎用世界基盤モデルを事後学習します。ポリシーモデルは、特定のタスク、ドメイン、動作に対し、事前学習済みのアクションを大規模に適応させます。
制御可能な物理ベースの世界シミュレーターとして実行することで、複数のアプローチを予測し、クローズドループで結果を評価し、適切な動作を導き出します。
環境、タスク、条件にわたってループを拡張し、現実世界のリスクなしで継続的に改善しましょう。
テキスト、画像、ビデオ、環境音、アクション入力から、あり得そうな様々な未来を無限に生成します。
物理的にキャプチャされたものに縛られることなく、ビデオ生成を想像力として活用してフィジカル AI をトレーニングできます。
ビデオ
Computex 2026 で、NVIDIA の創業者兼 CEO である Jensen Huang が NVIDIA Cosmos 3 を紹介する様子をぜひご覧ください。これは、開発者が現実世界を理解し、シミュレーションし、行動できる自律システムを構築できるように設計された、世界で最も先進的な基盤モデルです。
導入時の選択肢
Cosmos 3 を支える同じテクノロジーを基盤に構築します。オープンなフレームワークとスキルにより、世界中の開発者がフィジカル AI をカスタマイズ、拡張し、それに貢献できます。
Cosmos Curator により、大量のセンサー データのフィルタリング、注釈付け、重複排除を迅速に実行できます。
Cosmos Evaluator を使用すると、大規模に生成ビデオ出力をレビューおよび評価できます。
オープンな事後学習、評価、最適化フレームワーク、推論スクリプトやスキルを使用して、世界モデルを迅速に構築、事後学習、またはデプロイできます。
コーディング エージェントをフィジカル AI 開発向けの合成データ エキスパートに変身させます。
ユース ケース
既知および未知の両方の条件下で、身体性エージェントが実環境で動作できるようにするロボット学習ポリシーを構築します。
カスタムで多様な高精度センサーデータを生成し、自動運転車の安全なトレーニング、テスト、検証を実現します。
産業環境および都市環境全体における自動化、安全性、運用効率を向上させます。
Cosmos を活用することで、AI エージェントは、リアルタイムまたは録画されたビデオ ストリームを分析、要約、および操作して、以下のことを行えるようになります。
パフォーマンス
Cosmos 3 は、NVIDIA ハードウェア上で最高のパフォーマンスを実現するように最適化されています。 NVIDIA RTX PRO 6000 Blackwell シリーズ サーバーは、ロボット、自動運転車、AI エージェント分野でのフィジカル AI 開発における トレーニング、合成データ生成、シミュレーション、推論を高速化します。
NVIDIA Blackwell GB200 ならば、産業分野でのポスト トレーニングおよび推論ワークロードでの Cosmos 世界基盤モデルの能力を最大限に引き出せます。
エコシステム
ロボティクス、自動運転車、ビジョン AI 業界のモデル開発者は、Cosmos を使用して物理 AI 開発を高速化しています。
Cosmos 3 は、Mixture of Transformers アーキテクチャに基づいています。 推論モジュールとジェネレーターモジュールは、効率的な生成とパフォーマンスを実現するために異なるトランスフォーマーを使用しています。 したがって、モデルはまず推論してから生成するため、あらゆる機能において優れた物理精度を実現しています。アーキテクチャの詳細については、こちらをご覧ください。
Cosmos 世界基盤モデルは、NVIDIA Open Model License の下で誰でも利用できます。
Cosmos 3 は、GitHub で各モーダリティとモジュールの事後学習スクリプトとともに一般に公開されています。 さらに、NVIDIA TAO 7 は、コーディング エージェントや自然言語プロンプトを使用して、Cosmos 3 を含むビジョン AI モデルをファインチューニングするための一連のエージェント スキルとツールを提供します。 GitHub で TAO 7 エージェント スキルとツールをダウンロードしてください。
Cosmos を活用して、お好みの基礎モデルやモデル アーキテクチャを使用してゼロから構築できます。 ビデオ データの前処理に Cosmos Curator を活用することで始めましょう。次に、Cosmos Tokenizer を使用してデータを圧縮およびデコードします。 データの処理が完了したら、モデルのトレーニングまたはファインチューニングを行うことができます。
NVIDIA NIM™ マイクロサービスを使用することで、クラウド、データ センター、ワークステーションにある貴社のアプリケーションにフィジカル AI モデルを簡単に統合できます。
また、NVIDIA DGX Cloud を使用して AI モデルをトレーニングし、どこにでも大規模にデプロイできます。
Cosmos 3 は、テキスト、画像、ビデオ、サウンド、アクションにわたって生成できる Omni モデルです。 Cosmos 2.5 と Cosmos 2 では、知覚と生成が別々のモデルとして維持されており、モダリティはテキスト、画像、動画に限定されていました。
Omniverse は、さまざまな生成 API、SDK、NVIDIA RTX レンダリング テクノロジを使用して、実世界のタスクのリアルな 3D シミュレーションを作成します。
開発者は、Omniverse シミュレーションを Cosmos Transfer モデルに指示映像として入力し、制御可能な写真のようにリアルな合成データを生成できます。
Omniverse はトレーニング前後のシミュレーション環境を提供し、Cosmos は動画データを生成し、フィジカル AI モデルをトレーニングするための基盤モデルを提供します。
NVIDIA Omniverse の詳細については、こちらをご覧ください。