フィジカル AI

NVIDIA Cosmos

世界基盤モデルを開発し、フィジカル AI を推進。

概要

NVIDIA Cosmos とは何か?

NVIDIA Cosmos™ は、フィジカル AI 向けに特別に構築されたプラットフォームであり、最先端の生成世界基盤モデル (WFM)、ガードレール、高速データ処理とキュレーション パイプラインを特徴としています。 開発者は Cosmos を使用して、自動運転車 (AV)、ロボットビデオ解析 AI エージェント向けのフィジカル AI の開発を高速化しています。

NVIDIA、言語、生物学、ロボティクス向け AI のイノベーションを高速化

NVIDIA は、オープンな協働型エコシステムを通じて、世界的な AI イノベーションを加速するために、Cosmos、Nemotron、Isaac GR00T、Clara の各製品ファミリーにおいてオープン モデル、データ、ツールを公開しました。

NVIDIA、Uber を皮切りに世界でロボタクシー導入に向けた基盤を整備

NVIDIA と Uber は、NVIDIA の DRIVE AGX Hyperion 10 プラットフォームと Cosmos AI インフラストラクチャを使用して、グローバルなレベル 4 ロボタクシー ネットワークを拡張するために提携し、安全でスケーラブルな自律モビリティの実現を加速しています。

オープン モデル

フィジカル AI 向け Cosmos モデル

世界生成や推論、特化型フィジカル AI モデル開発での事後学習などですぐに利用可能な、開発者向けトレーニング済みマルチモーダル生成モデルです。

Cosmos Predict

マルチモーダル入力から最大 30 秒間の連続動画を生成できる最先端の世界の状態予測モデル。生成スピード、忠実度、プロンプトの準拠性に優れています。

Cosmos Transfer

さまざまな環境や照明条件に対して単一のシミュレーションや空間ビデオを迅速に拡張できるマルチコントロール モデル。

CARLA や NVIDIA Isaac Sim™ などのフィジカル AI シミュレーション フレームワークからの 3D 入力を高速化し、完全に制御可能なデータ拡張と合成データ生成のパイプラインを実現します。

Cosmos Reason

動画や画像に対する構造化推論を利用して、人間のように物理世界を理解するのに優れた完全カスタマイズ可能な推論視覚言語モデル (VLM)。

都市や産業の運営における時空間的理解、ロボティクスや自動運転車 (AV) のトレーニング データのキュレーション、ロボットの意思決定などでのビデオ解析 AI エージェントの動作を強化します。

データ キュレーション

NVIDIA Cosmos Curator は、開発者がフィジカル AI 開発に必要な大量のセンサー データを迅速にフィルタリング、注釈付け、重複排除し、モデルのニーズに合わせたカスタマイズ済みのデータセットを作成できるフレームワークです。

効率的なデータセットの処理と生成を高速化します。

ユース ケース

Cosmos が業界全体で AI を加速させる方法

Cosmos 世界基盤モデルを活用して、ロボティクス、自動運転車、産業用ビジョン システムの下流パイプライン向けにデータをシミュレーション、推論、生成します。

ロボット学習

ロボットが効果的に環境を認識し、相互作用を行うためには、多様かつ膨大な量のトレーニングデータが必要です。Cosmos WFM により、開発者は制御可能で高忠実度の合成データを生成し、ロボットの認識およびポリシー モデルをトレーニングできます。

自動運転車両のトレーニング

多様で高忠実度のセンサー データは、自動運転車の安全なトレーニング、テスト、検証に不可欠です。車両データを用いて追加学習された Cosmos WFM により、開発者は既存のデータの多様性を新しい天候、照明、ジオロケーションなどで増幅したり、マルチセンサー ビューに拡張することができるようになり、時間とコストを大幅に削減できます。

ビデオ解析 AI エージェント

これらの AI エージェントは、リアルタイムまたは録画されたビデオ ストリームを分析、要約し、相互作用することで、産業および都市環境における自動化、安全性、運用効率を向上させます。

Cosmos Reason は、物理世界に対する高度な視覚理解と時空間推論能力によってビデオ解析 AI エージェントを強化する、カスタマイズ可能な視覚言語モデル (VLM) です。これらの AI エージェントは、リアルタイムの質問対応、迅速なアラート、豊かなコンテクスト分析機能によって、エッジおよびクラウドでの導入環境においてよりスマートで応答性の高いシステムを実現します。

信頼できる AI

フィジカル AI コミュニティを支える

Cosmos モデル、ガードレール、トークナイザーは Hugging Face と GitHub で入手できます。また、フィジカル AI モデルのトレーニングにおけるデータ不足を解決するためのリソースも提供しています。

AI インフラ

NVIDIA Blackwell で最高のパフォーマンスを手に入れよう

NVIDIA RTX PRO 6000 Blackwell シリーズ サーバーは、ロボット、自動運転車、AI エージェント分野でのフィジカル AI 開発における トレーニング、合成データ生成、シミュレーション、推論を高速化します。

NVIDIA Blackwell GB200 ならば、産業分野でのポスト トレーニングおよび推論ワークロードでの Cosmos 世界基盤モデルの能力を最大限に引き出せます。

エコシステム

フィジカル AI のイノベーションをリードする企業が採用

ロボティクス、自動運転車、ビジョン AI 業界のモデル開発者は、Cosmos を使用してフィジカル AI 開発を高速化しています。

次のステップ

導入をご検討ですか?

NVIDIA API カタログの世界基盤モデルを実際に使ってみてください。あるいは、Cosmos を使用して独自の世界モデルの構築を始めることもできます。

事後学習 WFM

Cosmos WFM は、フィジカル AI 開発を高速化する強力なダウンストリーム 世界モデルを事後学習して活用する目的で特別に構築されています。

世界モデル向けの動画データ キュレーション

NVIDIA NeMo Curator を搭載した、NVIDIA データ センター GPU 向けに最適化された、高速データ処理とキュレーションのパイプラインを活用します。

関連情報

Cosmos 開発者からの最新情報

よくあるご質問

まずはドキュメントを確認してください。Cosmos 世界基盤モデルは、Hugging Face で公開されており、GitHub 上では推論および事後学習用のスクリプトを入手できます。開発者は、GitHub および Hugging Face の /NVIDIA/cosmos-tokenizer から Cosmos tokenizer を使用できます。

Cosmos 世界基盤モデルは、NVIDIA Open Model License の下で誰でも利用できます。

事後学習向けに、すべての Cosmos モデル用の PyTorch スクリプトが公開されています。事後学習について説明する手順ごとのガイドについては、ドキュメントをお読みください。

Cosmos を活用して、お好みの基盤モデルやモデル アーキテクチャを使用してゼロから構築できます。 まず、動画データの前処理に NeMo Curator を使用できます。 次に、Cosmos Tokenizer を使用してデータを圧縮およびデコードします。 データを処理したら、NVIDIA NeMo を使用してモデルをトレーニングし、ファインチューニングすることができます。

NVIDIA NIM™ マイクロサービスを使用することで、クラウド、データ センター、ワークステーションにあるお客様のアプリケーションにフィジカル AI モデルを簡単に統合できます。

また、NVIDIA DGX Cloud を使用して AI モデルをトレーニングし、任意の場所に大規模にデプロイすることもできます。

3 つの世界基盤モデルはそれぞれ明確な役割を持っています。

  • Cosmos Predict は、テキスト、画像、ビデオのプロンプトから多様な動画シーンを生成します。ロボットや自動運転車などのファインチューニングに最適です。
  • Cosmos Transfer は、物理ベースの動画にマルチコントロール スタイルの変換を適用して照明や環境を変化させます。多くの場合 NVIDIA Omniverse などのシミュレーターで作成されます。
  • Cosmos Reason は、動画および画像による入力に対して推論を行い、テキスト クエリに回答します。

Cosmos Reason では、Cosmos Predict の 1 本の動画から新しい多様なテキスト プロンプトを生成したり、Predict や Transfer からの合成データに評価や注釈を付けたりすることができます。

Omniverse は、さまざまな生成 API、SDK、NVIDIA RTX レンダリング テクノロジを使用して、実世界のタスクのリアルな 3D シミュレーションを作成します。

開発者は、Omniverse シミュレーションを Cosmos Transfer モデルに指示映像として入力し、制御可能な写真のようにリアルな合成データを生成することができます。

両方を活用すると、Omniverse からはトレーニング前後のシミュレーション環境が提供され、Cosmos からは動画データを生成し、フィジカル AI モデルをトレーニングするための基盤モデルが提供されます。

NVIDIA Omniverse の詳細はこちら。