概要
NVIDIA Cosmos™ は、フィジカル AI 向けに特別に構築されたプラットフォームであり、最先端の生成世界基盤モデル (WFM)、ガードレール、高速データ処理とキュレーション パイプラインを特徴としています。開発者は Cosmos を使用して、自動運転車 (AV)、ロボット、ビデオ解析 AI エージェント向けのフィジカル AI 開発を高速化しています。
モデル
世界を生成し理解するための、オープンで完全にカスタマイズ可能な事前トレーニング済みモデル。
ロボティクスと AI エージェント計画のための動的環境の将来の状態を予測します。
この世界生成モデルは、マルチモーダル プロンプトから最長 30 秒の高精細動画を生成します。
さまざまな環境や照明条件に対して単一のシミュレーションや空間ビデオを迅速に拡張できるマルチコントロール モデル。
CARLA や NVIDIA Isaac Sim™ などのフィジカル AI シミュレーション フレームワークからの 3D 入力を高速化し、完全に制御可能なデータ拡張と合成データ生成のパイプラインを実現します。
ロボットとビジョン AI エージェントが人間のように推論できるようにします。
このマルチモーダル視覚言語モデル (VLM) は、事前知識、物理的理解、常識を活用して現実世界を理解し、それと対話します。
NVIDIA Cosmos Curator は、開発者がフィジカル AI 開発に必要な大量のセンサー データを迅速にフィルタリング、注釈付け、重複排除し、モデルのニーズに合わせたカスタマイズ済みのデータセットを作成できるフレームワークです。
効率的なデータセットの処理と生成を高速化します。
ユース ケース
ロボットが効果的に環境を認識し、相互作用を行うためには、多様かつ膨大な量のトレーニングデータが必要です。Cosmos WFM はこれを複数の方法で解決します。
多様で高忠実度のセンサー データは、自動運転車の安全なトレーニング、テスト、検証に不可欠です。しかし、その拡張は困難で、時間とコストがかかります。
Cosmos WFM が車両データで事後トレーニングされることで、以下のことが可能になります。
産業環境および都市環境全体における自動化、安全性、運用効率を向上させます。
AI エージェントは、Cosmos Reason を活用することで、リアルタイムまたは録画された映像ストリームを分析・要約し、以下のことを実現します。
導入時の選択肢
AI インフラ
NVIDIA RTX PRO 6000 Blackwell シリーズ サーバーは、ロボット、自動運転車、AI エージェント分野でのフィジカル AI 開発における トレーニング、合成データ生成、シミュレーション、推論を高速化します。
NVIDIA Blackwell GB200 ならば、産業分野でのポスト トレーニングおよび推論ワークロードでの Cosmos 世界基盤モデルの能力を最大限に引き出せます。
エコシステム
ロボティクス、自動運転車、ビジョン AI 業界のモデル開発者は、Cosmos を使用して物理 AI 開発を高速化しています。
Cosmos 世界基盤モデルは、NVIDIA Open Model License の下で誰でも利用できます。
新しい Cosmos Cookbookを参照してください。この Cookbook には、ロボティクスおよび自律システム向けの NVIDIA Cosmos 世界基盤モデルを迅速に構築、カスタマイズ、デプロイするためのステップバイステップのレシピと事後トレーニング スクリプトが含まれています。
Cosmos を活用して、お好みの基盤モデルやモデル アーキテクチャを使用してゼロから構築できます。 まず、動画データの前処理に NeMo Curator を使用できます。 次に、Cosmos Tokenizer を使用してデータを圧縮およびデコードします。 データを処理したら、NVIDIA NeMo を使用してモデルをトレーニングし、ファインチューニングすることができます。
NVIDIA NIM™ マイクロサービスを使用することで、クラウド、データ センター、ワークステーションにあるお客様のアプリケーションにフィジカル AI モデルを簡単に統合できます。
また、NVIDIA DGX Cloud を使用して AI モデルをトレーニングし、任意の場所に大規模にデプロイすることもできます。
3 つの世界基盤モデルはそれぞれ明確な役割を持っています。
Cosmos Reason では、Cosmos Predict の 1 本の動画から新しい多様なテキスト プロンプトを生成したり、Predict や Transfer からの合成データに評価や注釈を付けたりすることができます。
Omniverse は、さまざまな生成 API、SDK、NVIDIA RTX レンダリング テクノロジを使用して、実世界のタスクのリアルな 3D シミュレーションを作成します。
開発者は、Omniverse シミュレーションを Cosmos Transfer モデルに指示映像として入力し、制御可能な写真のようにリアルな合成データを生成することができます。
両方を活用すると、Omniverse からはトレーニング前後のシミュレーション環境が提供され、Cosmos からは動画データを生成し、フィジカル AI モデルをトレーニングするための基盤モデルが提供されます。
NVIDIA Omniverse の詳細については、こちらをご覧ください。