フィジカル AI

NVIDIA Cosmos

世界基盤モデルを開発し、フィジカル AI を推進。

概要

NVIDIA Cosmos とは何か?

NVIDIA Cosmos™ は、フィジカル AI 向けに特別に構築されたプラットフォームであり、最先端の生成世界基盤モデル (WFM)、ガードレール、高速データ処理とキュレーション パイプラインを特徴としています。開発者は Cosmos を使用して、自動運転車 (AV)、ロボットビデオ解析 AI エージェント向けのフィジカル AI 開発を高速化しています。

Cosmos Cookbook

この Cookbook は、Cosmos のオープンモデルに関する実践的なガイドです。WFMs の構築、適応、デプロイに向けたステップバイステップのワークフロー、技術的なレシピ、そして具体的な例を提供します。

モデル

フィジカル AI 向けの世界基盤モデル

世界を生成し理解するための、オープンで完全にカスタマイズ可能な事前トレーニング済みモデル。

Cosmos Predict

ロボティクスと AI エージェント計画のための動的環境の将来の状態を予測します。

この世界生成モデルは、マルチモーダル プロンプトから最長 30 秒の高精細動画を生成します。

Cosmos Transfer

さまざまな環境や照明条件に対して単一のシミュレーションや空間ビデオを迅速に拡張できるマルチコントロール モデル。

CARLA や NVIDIA Isaac Sim™ などのフィジカル AI シミュレーション フレームワークからの 3D 入力を高速化し、完全に制御可能なデータ拡張と合成データ生成のパイプラインを実現します。

Cosmos Reason

ロボットとビジョン AI エージェントが人間のように推論できるようにします。 

このマルチモーダル視覚言語モデル (VLM) は、事前知識、物理的理解、常識を活用して現実世界を理解し、それと対話します。

データ キュレーション

NVIDIA Cosmos Curator は、開発者がフィジカル AI 開発に必要な大量のセンサー データを迅速にフィルタリング、注釈付け、重複排除し、モデルのニーズに合わせたカスタマイズ済みのデータセットを作成できるフレームワークです。

効率的なデータセットの処理と生成を高速化します。

ユース ケース

Cosmos が業界全体で AI を加速させる方法

Cosmos WFM を活用して、ロボティクス、自動運転車、産業用ビジョン システムの下流パイプライン向けにデータをシミュレーション、推論、生成します。

ロボット学習

ロボットが効果的に環境を認識し、相互作用を行うためには、多様かつ膨大な量のトレーニングデータが必要です。Cosmos WFM はこれを複数の方法で解決します。

  • Cosmos Transfer を使用して合成データを生成します。
  • ロボットのポリシー向けに Cosmos Predict を事後トレーニングします。
  • Cosmos Reason を使用して合成データを推論し、フィルタリングします。

自動運転車両のトレーニング

多様で高忠実度のセンサー データは、自動運転車の安全なトレーニング、テスト、検証に不可欠です。しかし、その拡張は困難で、時間とコストがかかります。

Cosmos WFM が車両データで事後トレーニングされることで、以下のことが可能になります。

  • Cosmos Transfer を活用し、新たな気象・照明・地理位置データで既存データの多様性を拡大します。
  • Cosmos Predict を使用してマルチセンサー ビューに拡張します。

映像解析 AI エージェント

産業環境および都市環境全体における自動化、安全性、運用効率を向上させます。

AI エージェントは、Cosmos Reason を活用することで、リアルタイムまたは録画された映像ストリームを分析・要約し、以下のことを実現します。

  • リアルタイムの質問応答とアラートを提供します。
  • 豊富な文脈に基づく洞察を提供します。

導入時の選択肢

NVIDIA Cosmos を使い始める

1

構築する準備はできていますか? モデルとコードに直接アクセスします。

2

構築の準備ができていませんか? ホスティングされたカタログで Cosmos モデルをお試しください。

3

 ヘルプが必要ですか? ハンズオン モデル レシピですぐに始めましょう。

信頼できる AI

フィジカル AI コミュニティを支える

Cosmos モデル、ガードレール、トークナイザーは Hugging Face と GitHub で入手できます。また、フィジカル AI モデルのトレーニングにおけるデータ不足を解決するためのリソースも提供しています。

AI インフラ

NVIDIA Blackwell で最高のパフォーマンスを手に入れよう

NVIDIA RTX PRO 6000 Blackwell シリーズ サーバーは、ロボット、自動運転車、AI エージェント分野でのフィジカル AI 開発における トレーニング、合成データ生成、シミュレーション、推論を高速化します。

NVIDIA Blackwell GB200 ならば、産業分野でのポスト トレーニングおよび推論ワークロードでの Cosmos 世界基盤モデルの能力を最大限に引き出せます。

エコシステム

フィジカル AI のイノベーションをリードする企業が採用

ロボティクス、自動運転車、ビジョン AI 業界のモデル開発者は、Cosmos を使用して物理 AI 開発を高速化しています。

次のステップ

Cosmos コミュニティに参加する

Cosmos エキスパートとつながり、開発者仲間と交流し、モデルについてのフィードバックを提供し、ライブストリームやレシピで継続的な学習にアクセスできます。

Cosmos Cookbook

ロボティクス、シミュレーション、自律システム、物理シーンの理解といった分野における現実世界のドメイン特化型アプリケーション向けに、NVIDIA Cosmos エコシステムを活用するための包括的なガイド。

世界モデル向けの動画データ キュレーション

NVIDIA NeMo Curator を搭載した、NVIDIA データ センター GPU 向けに最適化された、高速データ処理とキュレーションのパイプラインを活用します。

関連情報

Cosmos 開発者からの最新情報

よくある質問

Cosmos 世界基盤モデルは、NVIDIA Open Model License の下で誰でも利用できます。

新しい Cosmos Cookbookを参照してください。この Cookbook には、ロボティクスおよび自律システム向けの NVIDIA Cosmos 世界基盤モデルを迅速に構築、カスタマイズ、デプロイするためのステップバイステップのレシピと事後トレーニング スクリプトが含まれています。 

Cosmos を活用して、お好みの基盤モデルやモデル アーキテクチャを使用してゼロから構築できます。 まず、動画データの前処理に NeMo Curator を使用できます。 次に、Cosmos Tokenizer を使用してデータを圧縮およびデコードします。 データを処理したら、NVIDIA NeMo を使用してモデルをトレーニングし、ファインチューニングすることができます。

NVIDIA NIM™ マイクロサービスを使用することで、クラウド、データ センター、ワークステーションにあるお客様のアプリケーションにフィジカル AI モデルを簡単に統合できます。

また、NVIDIA DGX Cloud を使用して AI モデルをトレーニングし、任意の場所に大規模にデプロイすることもできます。

3 つの世界基盤モデルはそれぞれ明確な役割を持っています。

  • Cosmos Predict は、テキスト、画像、ビデオ プロンプトから多様なビデオ シーンを生成し、ロボットや自動運転車などの事後トレーニングに最適です。
  • Cosmos Transfer は、多くの場合、NVIDIA Omniverse™ などのシミュレーターで作成された物理ベースの動画にマルチコントロールのスタイル変換を適用して照明や環境を変化させます。
  • Cosmos Reason は、動画および画像による入力に対して推論を行い、クエリに回答します。Cosmos Reason では、Cosmos Predict の 1 本の動画から新しい多様なテキスト プロンプトを生成したり、Predict や Transfer からの合成データに評価や注釈を付けたりすることができます。

Cosmos Reason では、Cosmos Predict の 1 本の動画から新しい多様なテキスト プロンプトを生成したり、Predict や Transfer からの合成データに評価や注釈を付けたりすることができます。

Omniverse は、さまざまな生成 API、SDK、NVIDIA RTX レンダリング テクノロジを使用して、実世界のタスクのリアルな 3D シミュレーションを作成します。

開発者は、Omniverse シミュレーションを Cosmos Transfer モデルに指示映像として入力し、制御可能な写真のようにリアルな合成データを生成することができます。

両方を活用すると、Omniverse からはトレーニング前後のシミュレーション環境が提供され、Cosmos からは動画データを生成し、フィジカル AI モデルをトレーニングするための基盤モデルが提供されます。

NVIDIA Omniverse の詳細については、こちらをご覧ください。