フィジカル AI

NVIDIA Cosmos

世界基盤モデルでフィジカル AI 開発を加速します。

概要

NVIDIA Cosmo とは何か?

NVIDIA Cosmos™ は最先端の生成型世界基盤モデル (WFM)、高度なトークナイザー、ガードレール、高速データ処理、キュレーション パイプラインからなるプラットフォームであり、フィジカル AI システム (自動運転車 (AV)ロボットなど) の開発を加速する目的で作られています。

フィジカル AI 開発者コミュニティに Cosmos 世界基盤モデルを公開

何百万時間にも及ぶ運転やロボティクスの動画データで訓練された最先端モデルであり、フィジカル AI 開発の民主化を目指しています。オープン モデル ライセンスの下で利用可能です。

フィジカル AI 開発を加速する世界基盤モデル プラットフォーム

ロボットや自動運転車など、フィジカル AI で具現化されるシステムの開発は、新しい NVIDIA Cosmos プラットフォームによって加速されます。

利点

世界基盤モデルでフィジカル AI 開発を加速

Cosmos のオープン プラットフォームなら、開発者は高性能な世界基盤モデルとデータパイプラインを簡単に利用できます。フィジカル AI 開発があらゆる人に開かれます。

物理対応

2000 万時間のロボット工学と運転のデータを含む、9,000 兆個のトークンでトレーニングされた第一世代のビデオ モデル スイート - 画像、テキスト、ビデオのようなマルチモーダル入力から高品質のビデオを生成します。

オープン

Cosmos WFM とトークナイザーは NVIDIA Open Model ライセンスの下でご利用いただけます。世界中の開発者が高額な費用を支払うことなくフィジカル AI システムを大規模に構築することができます。

データ処理とキュレーションを加速

CUDA™-X と NVIDIA AI で高速化するツールからなる NVIDIA NeMo Curator パイプラインは、100 PB 超のデータ処理でデータキュレーションのスピードを 20 倍にします。最適化には面倒な設定がなく、総所有コスト (TCO) を最小限に抑え、市場投入までの時間を短縮します。

カスタム モデルの開発

Cosmos トークナイザーは、8 倍効率的な圧縮技術と 12 倍高速の処理スピードでビジュアル データを高忠実度のトークンに変換します。

NVIDIA NeMo™ は、フィジカル AI 向けのマルチモーダル生成 AI モデルを構築するためのアクセラレーテッド トレーニングとファインチューニングを備えています。

モデル

NVIDIA Cosmos 世界基盤モデル

フィジカル AI 開発を目的に特化して設計された、物理を考慮した動画や世界の状態を生成するための事前学習済みモデル群。


モデル アーキテクチャ、開発リソース、可用性についてはこちらをご覧ください。

最先端モデル群

  • テキストから世界を生成する「Text-to-World」や、ビデオから世界を生成する「Video-to-World」のための自己回帰モデルと拡散モデル。これらは 40 億個から 140 億個のパラメーター サイズで利用可能であり、さまざまなニーズに対応します。
  • 120 億個のパラメーターのアップサンプリングモデルにより、テキスト プロンプトを洗練し、生成された出力の精度と詳細を向上させます。
  • 70 億個のパラメーターのモデルで、ビデオ シーケンスのデコードに特化して設計されており、拡張現実 (AR) アプリケーション向けに最適化されています。

組み込みガードレール

  • ブランド、NSFW コンテンツ、有害なプロンプトをフィルタリングするための事前ガード。
  • 問題があるシナリオを除外する事後ガード。
  • 人間の顔をぼかすガードレール。
  • NVIDIA API カタログのあるプレビュー API から生成された合成ビデオのデジタル ウォーターマーク。

ベンチマーク

フィジカル AI パフォーマンスへの旅

NVIDIA は、ロボティクスおよび自動運転車のエコシステムと協力し、フィジカル AI アプリケーションの特有の要件を反映するために、世界基盤モデルに基づいた一連のベンチマークを開発しています。

Cosmos ベンチマークは、次世代の世界モデルを評価するために設計されており、ロボティクスや自律システムに不可欠な 3D 一貫性や物理的整合性といった高度な基準を採用しています。

VideoLDM (VLDM) というビデオ生成のベースライン生成モデルと比較して、Cosmos の WFM (世界基盤モデル) は、幾何学的精度に優れ、Sampson エラーが低く、時間的安定性が向上しています。また、ベンチマークでは、重力や衝突ダイナミクスといった物理的な挙動に基づいて WFM が評価されます。

Cosmos の WFM (世界基盤モデル) は、視覚的一貫性において VLDM を一貫して上回り、ポーズ推定の成功率では最大 14 倍の向上を達成しています。拡散モデルはそのままの状態で高い忠実度を提供する一方で、自己回帰モデルはカスタム モデルにおいて優れた性能を発揮します。

ユース ケース

開発者が NVIDIA Cosmos を使用する方法

ロボット、自動運転車、ビジョン AI の開発者が Cosmos を活用してその研究を前進させる様子をご覧ください。

ビデオ検索

Cosmos は、開発者が AI モデルのトレーニング用にカスタマイズされたデータセットを構築するのを支援します。自動運転車向けの雪道映像や、ロボティクス向けの忙しい倉庫の映像など、Cosmos は空間的および時間的パターンを理解することで、動画のタグ付けや検索を簡素化し、トレーニングデータの準備をより容易にします。

これにより、時間とコストを削減し、実世界での使用に非常に関連性が高く、影響力のある AI モデルを提供できます。

制御可能な 3D-to-Real 合成データ

開発者は、自身の 3D シミュレーション データを活用して、フォトリアルな合成動画を生成できます。Omniverse を使用することで、モデルのトレーニングに必要な 3D 環境を作成できます。その後、3D シーンによって正確に制御されたフォトリアリスティックな動画を生成し、高度にカスタマイズされた合成データセットを作成できます。

ポリシー モデルのトレーニングと評価

Cosmos の世界基盤モデルは、アクションに基づく動画予測のためにファインチューニングされており、フィジカル AI システムの戦略を定義するポリシー モデルのトレーニングと評価をスケーラブルかつ再現性の高い形で可能にします。これにより、状態から行動へのマッピングが効率的に実現されます。開発者はこれらのモデルを使用することで、障害物の回避や物体操作といったタスクにおいて、リスクの高い実世界でのテストや複雑なシミュレーションへの依存を減らすことができます。これにより、性能を最適化し、ロボティクスや自動運転車などの実世界でのアプリケーションにおいて信頼性を確保します。

フォーサイト

Cosmos は、フィジカル AI に高度な予測インテリジェンスを提供し、システムが将来のシナリオを予測し、より賢明な意思決定を行えるようにします。Cosmos は、過去のデータやテキスト プロンプトに基づいた予測動画を生成する「フォーサイト ジェネレーション (先見の明の生成)」を利用し、フィジカル AI が最適な行動を選択できるようにします。これにより、動的な環境における効率性、適応性、安全性が向上します。

マルチバース シミュレーション

NVIDIA Omniverse を使用することで、開発者は複数の Cosmos による結果をシミュレーションし、リアルタイムのシナリオを評価できます。これにより、意思決定が加速し、ロボティクスや自動運転車といった AI 駆動型システムを最適化できます。Cosmos と Omniverse を組み合わせることで、フィジカル AI モデルはすべての可能な未来の結果を探索し、複雑な環境で精度と信頼性を高める最適な経路を選択することが可能になります。

エコシステム

フィジカル AI のイノベーションをリードする企業が採用

ロボティクス、自動運転車、ビジョン AI 業界のモデル開発者は、Cosmos を活用してフィジカル AI の開発を加速させています。

次のステップ

さっそく始めませんか?

NVIDIA API カタログの世界基盤モデルをお試しください。あるいは、NVIDIA Cosmos を使用して世界モデルの構築を始めてください。

カスタム モデルを構築する

NVIDIA NeMo は、あらゆるプラットフォームで世界モデルをキュレート、トークナイズ、ファインチューニングするためのエンドツーエンド パイプラインを提供します。

世界モデルのためのビデオ データ キュレーションを始める

NVIDIA NeMo Curator を動力とし、NVIDIA データ センター GPU 向けに最適化された高速のデータ処理/キュレーション パイプライン。

よく寄せられる質問

フィジカル AI 開発者は、NGC カタログHugging Face で利用可能な Cosmos の世界基盤モデルを今すぐ開始できます。また、NVIDIA NeMo で基盤モデルのファインチューニングを行うためのエンドツーエンドのパイプラインも提供しています。開発者は、GitHub と Hugging Face の /NVIDIA/cosmos-tokenizer から Cosmos トークナイザーを使用できます。

Cosmos 世界基盤モデルは NVIDIA Open Model License の下で誰もが利用できます。

はい。Cosmos では、NeMo によるファインチューニングがサポートされています。 LoRA や RLHF (人間のフィードバックによる強化学習) など、人気の手法を利用してモデルを効率的にトレーニングしたり、ファインチューニングしたりできます。 PyTorch を選択し、独自のデータセットを使用して WFM のトレーニングを続けることもできます。

はい。Cosmos を使用するとき、自分で選んだ基礎モデルやモデル アーキテクチャでゼロから構築できます。まず、ビデオ データの事前処理に NeMo Curator の使用から始めることができます。その後、Cosmos トークナイザーでデータを圧縮、デコードし、データが処理されたら、NVIDIA NeMo を使用してモデルをトレーニングしたり、ファインチューニングしたりできます。

NIM マイクロサービスを使用し、クラウド、データ センター、ワークステーションをまたいでアプリケーション内でフィジカル AI モデルを簡単に統合できます。

NVIDIA DGX Cloud を使用すれば、AI モデルをトレーニングし、どこにでも大規模に展開できます。

Cosmos と Cosmos Nemotron はいずれも、物理世界からとられた映像を処理し、解釈するように作られた NVIDIA モデル群に属します。

Cosmos モデルは、物理を考慮した動画を予測・生成することに特化した世界基盤モデルであり、仮想環境の将来の状態をシミュレーションし、理解するのに役立ちます。一方で、Cosmos Nemotron モデルは、画像や動画のクエリ処理や要約に特化したビジョン ランゲージ モデルであり、物理的および仮想的な視覚データを AI が解釈し、それに応答する能力を提供します。

この 2 つが互いに補完することで、映像理解に基づいた高度な AI 機能が可能になります。