フィジカル AI
世界基盤モデルを開発し、フィジカル AI を推進。
概要
NVIDIA Cosmos™ は、フィジカル AI 向けに特別に構築されたプラットフォームであり、最先端の生成世界基盤モデル (WFM)、ガードレール、高速データ処理とキュレーション パイプラインを特徴としています。 開発者は Cosmos を使用して、自動運転車 (AV)、ロボット、ビデオ解析 AI エージェント向けのフィジカル AI の開発を高速化しています。
オープン モデル
世界生成や推論、特化型フィジカル AI モデル開発での事後学習などですぐに利用可能な、開発者向けトレーニング済みマルチモーダル生成モデルです。
マルチモーダル入力から最大 30 秒間の連続動画を生成できる最先端の世界の状態予測モデル。生成スピード、忠実度、プロンプトの準拠性に優れています。
さまざまな環境や照明条件に対して単一のシミュレーションや空間ビデオを迅速に拡張できるマルチコントロール モデル。
CARLA や NVIDIA Isaac Sim™ などのフィジカル AI シミュレーション フレームワークからの 3D 入力を高速化し、完全に制御可能なデータ拡張と合成データ生成のパイプラインを実現します。
動画や画像に対する構造化推論を利用して、人間のように物理世界を理解するのに優れた完全カスタマイズ可能な推論視覚言語モデル (VLM)。
都市や産業の運営における時空間的理解、ロボティクスや自動運転車 (AV) のトレーニング データのキュレーション、ロボットの意思決定などでのビデオ解析 AI エージェントの動作を強化します。
NVIDIA Cosmos Curator は、開発者がフィジカル AI 開発に必要な大量のセンサー データを迅速にフィルタリング、注釈付け、重複排除し、モデルのニーズに合わせたカスタマイズ済みのデータセットを作成できるフレームワークです。
効率的なデータセットの処理と生成を高速化します。
ユース ケース
Cosmos 世界基盤モデルを活用して、ロボティクス、自動運転車、産業用ビジョン システムの下流パイプライン向けにデータをシミュレーション、推論、生成します。
ロボットが効果的に環境を認識し、相互作用を行うためには、多様かつ膨大な量のトレーニングデータが必要です。Cosmos WFM により、開発者は制御可能で高忠実度の合成データを生成し、ロボットの認識およびポリシー モデルをトレーニングできます。
多様で高忠実度のセンサー データは、自動運転車の安全なトレーニング、テスト、検証に不可欠です。車両データを用いて追加学習された Cosmos WFM により、開発者は既存のデータの多様性を新しい天候、照明、ジオロケーションなどで増幅したり、マルチセンサー ビューに拡張することができるようになり、時間とコストを大幅に削減できます。
これらの AI エージェントは、リアルタイムまたは録画されたビデオ ストリームを分析、要約し、相互作用することで、産業および都市環境における自動化、安全性、運用効率を向上させます。
Cosmos Reason は、物理世界に対する高度な視覚理解と時空間推論能力によってビデオ解析 AI エージェントを強化する、カスタマイズ可能な視覚言語モデル (VLM) です。これらの AI エージェントは、リアルタイムの質問対応、迅速なアラート、豊かなコンテクスト分析機能によって、エッジおよびクラウドでの導入環境においてよりスマートで応答性の高いシステムを実現します。
信頼できる AI
Cosmos モデル、ガードレール、トークナイザーは Hugging Face と GitHub で入手できます。また、フィジカル AI モデルのトレーニングにおけるデータ不足を解決するためのリソースも提供しています。
AI インフラ
NVIDIA RTX PRO 6000 Blackwell シリーズ サーバーは、ロボット、自動運転車、AI エージェント分野でのフィジカル AI 開発における トレーニング、合成データ生成、シミュレーション、推論を高速化します。
NVIDIA Blackwell GB200 ならば、産業分野でのポスト トレーニングおよび推論ワークロードでの Cosmos 世界基盤モデルの能力を最大限に引き出せます。
エコシステム
ロボティクス、自動運転車、ビジョン AI 業界のモデル開発者は、Cosmos を使用してフィジカル AI 開発を高速化しています。
まずはドキュメントを確認してください。Cosmos 世界基盤モデルは、Hugging Face で公開されており、GitHub 上では推論および事後学習用のスクリプトを入手できます。開発者は、GitHub および Hugging Face の /NVIDIA/cosmos-tokenizer から Cosmos tokenizer を使用できます。
Cosmos 世界基盤モデルは、NVIDIA Open Model License の下で誰でも利用できます。
事後学習向けに、すべての Cosmos モデル用の PyTorch スクリプトが公開されています。事後学習について説明する手順ごとのガイドについては、ドキュメントをお読みください。
Cosmos を活用して、お好みの基盤モデルやモデル アーキテクチャを使用してゼロから構築できます。 まず、動画データの前処理に NeMo Curator を使用できます。 次に、Cosmos Tokenizer を使用してデータを圧縮およびデコードします。 データを処理したら、NVIDIA NeMo を使用してモデルをトレーニングし、ファインチューニングすることができます。
NVIDIA NIM™ マイクロサービスを使用することで、クラウド、データ センター、ワークステーションにあるお客様のアプリケーションにフィジカル AI モデルを簡単に統合できます。
また、NVIDIA DGX Cloud を使用して AI モデルをトレーニングし、任意の場所に大規模にデプロイすることもできます。
3 つの世界基盤モデルはそれぞれ明確な役割を持っています。
Cosmos Reason では、Cosmos Predict の 1 本の動画から新しい多様なテキスト プロンプトを生成したり、Predict や Transfer からの合成データに評価や注釈を付けたりすることができます。
Omniverse は、さまざまな生成 API、SDK、NVIDIA RTX レンダリング テクノロジを使用して、実世界のタスクのリアルな 3D シミュレーションを作成します。
開発者は、Omniverse シミュレーションを Cosmos Transfer モデルに指示映像として入力し、制御可能な写真のようにリアルな合成データを生成することができます。
両方を活用すると、Omniverse からはトレーニング前後のシミュレーション環境が提供され、Cosmos からは動画データを生成し、フィジカル AI モデルをトレーニングするための基盤モデルが提供されます。
NVIDIA Omniverse の詳細はこちら。