フィジカル AI

NVIDIA Cosmos

世界をリードする基盤モデルとオープンなデータ処理、トレーニング、評価フレームワークによりフィジカル AI を迅速に開発します。

Cosmos 3

オープンなフィジカル AI 基盤モデル

ネイティブな推論、世界およびアクションの生成機能を備えた初のOmni モデルMixture-of-Transformers を基盤として構築されています。

Power Vision AI リーズニング

複雑な現実世界のシナリオ全体でオブジェクト、相互作用、意図を推論するためのビジョン言語モデル (VLM) として使用します。 

品質検査、公共安全、交通監視、ロジスティクス、自動運転の分野にわたるリアルタイムアラートと高密度キャプショニング。

ポリシー モデルの構築

Cosmos 3 を世界アクションモデル (WAM) のバックボーンとして活用することで、ロボットのポリシー学習を高速化できます。 

専用カメラと身体性データで、汎用世界基盤モデルを事後学習します。ポリシーモデルは、特定のタスク、ドメイン、動作に対し、事前学習済みのアクションを大規模に適応させます。

世界をシミュレート

制御可能な物理ベースの世界シミュレーターとして実行することで、複数のアプローチを予測し、クローズドループで結果を評価し、適切な動作を導き出します。

環境、タスク、条件にわたってループを拡張し、現実世界のリスクなしで継続的に改善しましょう。

合成ビデオデータのスケーリング

テキスト、画像、ビデオ、環境音、アクション入力から、あり得そうな様々な未来を無限に生成します。

物理的にキャプチャされたものに縛られることなく、ビデオ生成を想像力として活用してフィジカル AI をトレーニングできます。

ビデオ

Cosmos の紹介

Computex 2026 で、NVIDIA の創業者兼 CEO である Jensen Huang が NVIDIA Cosmos 3 を紹介する様子をぜひご覧ください。これは、開発者が現実世界を理解し、シミュレーションし、行動できる自律システムを構築できるように設計された、世界で最も先進的な基盤モデルです。

導入時の選択肢

NVIDIA Cosmos を使い始める

1

構築する準備はできていますか? オープン モデルとコードに直接アクセスしてください。

2

構築の準備ができていませんか? ホスティングされたカタログで Cosmos モデルをお試しください。

3

ヘルプが必要ですか? ハンズオン モデル レシピですぐに始めましょう。

Cosmos で開発しましょう

Cosmos 3 を支える同じテクノロジーを基盤に構築します。オープンなフレームワークとスキルにより、世界中の開発者がフィジカル AI をカスタマイズ、拡張し、それに貢献できます。

データ キュレーション

Cosmos Curator により、大量のセンサー データのフィルタリング、注釈付け、重複排除を迅速に実行できます。

Cosmos Evaluator を使用すると、大規模に生成ビデオ出力をレビューおよび評価できます。

トレーニングと高速化

オープンな事後学習、評価、最適化フレームワーク、推論スクリプトやスキルを使用して、世界モデルを迅速に構築、事後学習、またはデプロイできます。

合成データ生成のためのエージェントのスキル

コーディング エージェントをフィジカル AI 開発向けの合成データ エキスパートに変身させます。

ユース ケース

Cosmos が業界全体で AI を加速させる方法

Cosmos WFM を活用して、ロボティクス、自動運転車、産業用ビジョン システムの下流パイプライン向けにデータをシミュレーション、推論、生成します。

ロボット学習

既知および未知の両方の条件下で、身体性エージェントが実環境で動作できるようにするロボット学習ポリシーを構築します。

  • 身体性固有のタスク、環境、カメラまたはセンサーのレイアウト、およびポリシーについて Cosmos 3 をポストトレーニングします。
  • 物理的に正確なクローズドループ シミュレーションを実行します。
  • Cosmos を基盤に構築されたエージェントのスキルを活用し、エンドツーエンドの合成データの拡張および評価パイプラインを構築する

自動運転車両のトレーニング

カスタムで多様な高精度センサーデータを生成し、自動運転車の安全なトレーニング、テスト、検証を実現します。

  • 新たな気象、照明、地理位置データで既存データの多様性を拡大します。
  • 事後学習により、マルチセンサービューへと拡張します。
  • Cosmos を基盤に構築されたエージェントのスキルを活用し、エンドツーエンドの合成データの拡張および評価パイプラインを構築する

映像解析 AI エージェント

産業環境および都市環境全体における自動化、安全性、運用効率を向上させます。

Cosmos を活用することで、AI エージェントは、リアルタイムまたは録画されたビデオ ストリームを分析、要約、および操作して、以下のことを行えるようになります。

  • リアルタイムのコンテキストに基づいたアラートを提供
  • 動画と対話し、ライブカメラのフィードや大規模な動画ライブラリからインサイトを抽出しましょう。
  • NVIDIA Metropolis Blueprint で動画検索と要約向けの動画分析 AI エージェントを構築しましょう
  • 合成トレーニングデータを生成して、理解の精度をさらに向上させる

パフォーマンス

NVIDIA AI で最高のパフォーマンスを発揮

Cosmos 3 は、NVIDIA ハードウェア上で最高のパフォーマンスを実現するように最適化されています。 NVIDIA RTX PRO 6000 Blackwell シリーズ サーバーは、ロボット、自動運転車、AI エージェント分野でのフィジカル AI 開発における トレーニング、合成データ生成、シミュレーション、推論を高速化します。

NVIDIA Blackwell GB200 ならば、産業分野でのポスト トレーニングおよび推論ワークロードでの Cosmos 世界基盤モデルの能力を最大限に引き出せます。

エコシステム

フィジカル AI のイノベーションをリードする企業が採用

ロボティクス、自動運転車、ビジョン AI 業界のモデル開発者は、Cosmos を使用して物理 AI 開発を高速化しています。

次のステップ

Cosmos コミュニティに参加する

Cosmos エキスパートとつながり、開発者仲間と交流し、モデルについてのフィードバックを提供し、ライブストリームやレシピで継続的な学習にアクセスできます。

Cosmos Cookbook

ロボティクス、シミュレーション、自律システム、物理シーンの理解といった分野における現実世界のドメイン特化型アプリケーション向けに、NVIDIA Cosmos エコシステムを活用するための包括的なガイド。

映像解析 AI エージェントを構築する

NVIDIA Blueprint と Cosmos Reason を組み合わせた動画検索および要約 (VSS) を活用して、スケーラブルなリアルタイム動画理解のための AI エージェントを構築しましょう。

関連情報

Cosmos 開発者からの最新情報

よくある質問

Cosmos 3 は、Mixture of Transformers アーキテクチャに基づいています。 推論モジュールとジェネレーターモジュールは、効率的な生成とパフォーマンスを実現するために異なるトランスフォーマーを使用しています。 したがって、モデルはまず推論してから生成するため、あらゆる機能において優れた物理精度を実現しています。アーキテクチャの詳細については、こちらをご覧ください。

Cosmos 世界基盤モデルは、NVIDIA Open Model License の下で誰でも利用できます。

Cosmos 3 は、GitHub で各モーダリティとモジュールの事後学習スクリプトとともに一般に公開されています。 さらに、NVIDIA TAO 7 は、コーディング エージェントや自然言語プロンプトを使用して、Cosmos 3 を含むビジョン AI モデルをファインチューニングするための一連のエージェント スキルとツールを提供します。 GitHub で TAO 7 エージェント スキルとツールをダウンロードしてください。

Cosmos を活用して、お好みの基礎モデルやモデル アーキテクチャを使用してゼロから構築できます。 ビデオ データの前処理に Cosmos Curator を活用することで始めましょう。次に、Cosmos Tokenizer を使用してデータを圧縮およびデコードします。 データの処理が完了したら、モデルのトレーニングまたはファインチューニングを行うことができます。 

NVIDIA NIM™ マイクロサービスを使用することで、クラウド、データ センター、ワークステーションにある貴社のアプリケーションにフィジカル AI モデルを簡単に統合できます。

また、NVIDIA DGX Cloud を使用して AI モデルをトレーニングし、どこにでも大規模にデプロイできます。

Cosmos 3 は、テキスト、画像、ビデオ、サウンド、アクションにわたって生成できる Omni モデルです。 Cosmos 2.5 と Cosmos 2 では、知覚と生成が別々のモデルとして維持されており、モダリティはテキスト、画像、動画に限定されていました。

Omniverse は、さまざまな生成 API、SDK、NVIDIA RTX レンダリング テクノロジを使用して、実世界のタスクのリアルな 3D シミュレーションを作成します。

開発者は、Omniverse シミュレーションを Cosmos Transfer モデルに指示映像として入力し、制御可能な写真のようにリアルな合成データを生成できます。

Omniverse はトレーニング前後のシミュレーション環境を提供し、Cosmos は動画データを生成し、フィジカル AI モデルをトレーニングするための基盤モデルを提供します。

NVIDIA Omniverse の詳細については、こちらをご覧ください。