フィジカル AI

NVIDIA Cosmos

世界基盤モデル (WFM: World Foundation Models)、ビデオ データ処理ライブラリ、ビデオ評価、ポストトレーニング フレームワークを備えるフィジカル AI 向けのオープンなプラットフォームです。

世界基盤モデル

世界の生成と理解のためのオープン モデル

Cosmos Predict

あらゆるフィジカル AI のタスクまたは環境に適応可能な、最先端の世界生成モデル。

2B/14B モデルを使用してテキスト、画像、またはビデオから 30 秒の予測ビデオの世界を生成します。また、独自のデータでポストトレーニングを行うことで、カスタム エッジ ケース、クローズドループ ポリシー、マルチビューのロボット中心シミュレーションを作成できます。

Cosmos Transfer

シミュレーションからフォトリアルへの変換を実現するマルチコントロール モデル。

CARLA や NVIDIA Isaac Sim™ などのフィジカル AI シミュレーション フレームワークと組み合わせることで、さまざまな環境や照明条件において合成データ生成を高速化します。

Cosmos Reason

ロボットとビジョン AI エージェントが人間のように推論できるようにする、最先端の視覚言語モデル (VLM) です。

事前知識、物理学、常識を組み合わせて、公共の安全、交通監視、ロジスティクス、品質検査、フィジカル AI に及ぶリアルタイムのアラートと実用的なインサイトを提供します。

データ処理と評価

効率的なデータセットの処理と評価を高速化します。

Cosmos Curator

Cosmos Curator により、大量のセンサー データのフィルタリング、注釈付け、重複排除を迅速に実行できます。

Cosmos Dataset Search

NVIDIA Cosmos Dataset Search (CDS) を使用すると、データセットに即座にクエリを実行し、シナリオを取得できます。

Cosmos Evaluator

Cosmos Evaluator を使用すると、大規模に生成ビデオ出力をレビューおよび評価できます。

ユース ケース

Cosmos が業界全体で AI を加速させる方法

Cosmos WFM を活用して、ロボティクス、自動運転車、産業用ビジョン システムの下流パイプライン向けにデータをシミュレーション、推論、生成します。

ロボット学習

ダウンストリームのタスク、環境、カメラまたはセンサーのレイアウト、ポリシー向けにカスタム世界モデルを構築します。

  • ロボット固有のビューまたは制御ポリシー向けに Cosmos Predict をポストトレーニング
  • Cosmos Transfer を使用して、環境と照明条件全体にわたる合成データを生成
  • Cosmos RL フレームワークを使用して Cosmos Reason をポストトレーニングし、ビジョン・言語・アクション (VLA) モデルを構築
  • Cosmos を基盤に構築された Physical AI Data Factory Blueprint を活用し、エンドツーエンドの合成データの拡張と評価パイプラインを構築

自動運転車のトレーニング

多様なカスタマイズ可能な高精度センサー データを生成し、自動運転車の安全なトレーニング、テスト、検証を実現します。

  • Cosmos Transfer を活用し、新たな気象、照明、地理位置データで既存データの多様性を拡大します。
  • Cosmos Predict を使用してマルチセンサー ビューに拡張します。
  • Cosmos を基盤に構築された Physical AI Data Factory Blueprint を活用し、エンドツーエンドの合成データの拡張と評価パイプラインを構築

映像解析 AI エージェント

産業環境および都市環境全体における自動化、安全性、運用効率を向上させます。

AI エージェントは、Cosmos Reason を活用することで、リアルタイムまたは録画された映像ストリームを分析・要約し、以下のことを実現します。

  • リアルタイムの質問応答とアラートを提供
  • 豊富な文脈に基づく洞察を提供
  • ビデオ検索と要約向けの NVIDIA Blueprint を使用して、大規模なビデオ データからインサイトを抽出

導入時の選択肢

NVIDIA Cosmos を使い始める

1

構築する準備はできていますか? オープン モデルとコードに直接アクセスしてください。

2

構築の準備ができていませんか? ホスティングされたカタログで Cosmos モデルをお試しください。

3

ヘルプが必要ですか? ハンズオン モデル レシピですぐに始めましょう。

信頼できる AI

フィジカル AI コミュニティを支える

Cosmos モデル、ガードレール、トークナイザーは Hugging Face と GitHub で入手できます。また、フィジカル AI モデルのトレーニングにおけるデータ不足を解決するためのリソースも提供しています。

AI インフラストラクチャ

NVIDIA Blackwell で最高のパフォーマンスを手に入れよう

NVIDIA RTX PRO 6000 Blackwell シリーズ サーバーは、ロボット、自動運転車、AI エージェント分野でのフィジカル AI 開発における トレーニング、合成データ生成、シミュレーション、推論を高速化します。

NVIDIA Blackwell GB200 ならば、産業分野でのポスト トレーニングおよび推論ワークロードでの Cosmos 世界基盤モデルの能力を最大限に引き出せます。

エコシステム

フィジカル AI のイノベーションをリードする企業が採用

ロボティクス、自動運転車、ビジョン AI 業界のモデル開発者は、Cosmos を使用して物理 AI 開発を高速化しています。

次のステップ

Cosmos コミュニティに参加する

Cosmos エキスパートとつながり、開発者仲間と交流し、モデルについてのフィードバックを提供し、ライブストリームやレシピで継続的な学習にアクセスできます。

Cosmos Cookbook

ロボティクス、シミュレーション、自律システム、物理シーンの理解といった分野における現実世界のドメイン特化型アプリケーション向けに、NVIDIA Cosmos エコシステムを活用するための包括的なガイド。

映像解析 AI エージェントを構築する

NVIDIA Blueprint と Cosmos Reason を組み合わせた動画検索および要約 (VSS) を活用して、スケーラブルなリアルタイム動画理解のための AI エージェントを構築しましょう。

関連情報

Cosmos 開発者からの最新情報

よくある質問

[2026 年 1 月 22 日] Cosmos Predict-2 を基盤に、視覚運動制御と計画を実現する Cosmos Policy に関する研究をリリースしました。

[2026 年 2 月 9 日] 新しい Cosmos Reason 2 で、コンピューティング サポート、量子化、CUDA 互換性を強化しました。

[2025 年 12 月 19 日] Hugging Face 経由での Cosmos-Predict2.5-2B Diffusers サポート、Hugging Face での Cosmos-Predict2.5-2B Text2World 蒸留済みチェックポイント、および蒸留ガイドをリリースしました。

[2025 年 12 月 19 日] Cosmos Transfer 2.5 向けの Image2Image と ImagePrompt 機能をリリースしました。推論ガイドはこちらをご覧ください。

詳細については、GitHub をご覧ください。

Cosmos 世界基盤モデルは、NVIDIA Open Model License の下で誰でも利用できます。

新しい Cosmos Cookbookを参照してください。この Cookbook には、ロボティクスおよび自律システム向けの NVIDIA Cosmos 世界基盤モデルを迅速に構築、カスタマイズ、デプロイするためのステップバイステップのレシピと事後トレーニング スクリプトが含まれています。 

Cosmos を活用して、お好みの基礎モデルやモデル アーキテクチャを使用してゼロから構築できます。 ビデオ データの前処理に Cosmos Curator を活用することで始めましょう。次に、Cosmos Tokenizer を使用してデータを圧縮およびデコードします。 データの処理が完了したら、モデルのトレーニングまたはファインチューニングを行うことができます。 

NVIDIA NIM™ マイクロサービスを使用することで、クラウド、データ センター、ワークステーションにある貴社のアプリケーションにフィジカル AI モデルを簡単に統合できます。

また、NVIDIA DGX Cloudを使用してAIモデルをトレーニングし、どこにでも大規模にデプロイできます。

3 つの世界基盤モデルはそれぞれ明確な役割を持っています。

  • Cosmos Predict は、テキスト、画像、ビデオ プロンプトから多様なビデオ シーンを生成し、ロボットや自動運転車などの事後トレーニングに最適です。
  • Cosmos Transfer は、多くの場合、NVIDIA Omniverse™ などのシミュレーターで作成された物理ベースの動画にマルチコントロールのスタイル変換を適用して照明や環境を変化させます。
  • Cosmos Reason は、動画および画像による入力に対して推論を行い、クエリに回答します。Cosmos Reason では、Cosmos Predict の 1 本の動画から新しい多様なテキスト プロンプトを生成したり、Predict や Transfer からの合成データに評価や注釈を付けたりすることができます。

Omniverse は、さまざまな生成 API、SDK、NVIDIA RTX レンダリング テクノロジを使用して、実世界のタスクのリアルな 3D シミュレーションを作成します。

開発者は、Omniverse シミュレーションを Cosmos Transfer モデルに指示映像として入力し、制御可能な写真のようにリアルな合成データを生成することができます。

両方を活用すると、Omniverse からはトレーニング前後のシミュレーション環境が提供され、Cosmos からは動画データを生成し、フィジカル AI モデルをトレーニングするための基盤モデルが提供されます。

NVIDIA Omniverse の詳細については、こちらをご覧ください。