Visit your regional NVIDIA website for local content, pricing, and where to buy partners specific to your country.
フィジカル AI
世界基盤モデルでフィジカル AI 開発を加速します。
概要
NVIDIA Cosmos™ は最先端の生成型世界基盤モデル (WFM)、高度なトークナイザー、ガードレール、高速データ処理、キュレーション パイプラインからなるプラットフォームであり、フィジカル AI システム (自動運転車 (AV) やロボットなど) の開発を加速する目的で作られています。
何百万時間にも及ぶ運転やロボティクスの動画データで訓練された最先端モデルであり、フィジカル AI 開発の民主化を目指しています。オープン モデル ライセンスの下で利用可能です。
ロボットや自動運転車など、フィジカル AI で具現化されるシステムの開発は、新しい NVIDIA Cosmos プラットフォームによって加速されます。
利点
Cosmos のオープン プラットフォームなら、開発者は高性能な世界基盤モデルとデータパイプラインを簡単に利用できます。フィジカル AI 開発があらゆる人に開かれます。
2000 万時間のロボット工学と運転のデータを含む、9,000 兆個のトークンでトレーニングされた第一世代のビデオ モデル スイート - 画像、テキスト、ビデオのようなマルチモーダル入力から高品質のビデオを生成します。
Cosmos WFM とトークナイザーは NVIDIA Open Model ライセンスの下でご利用いただけます。世界中の開発者が高額な費用を支払うことなくフィジカル AI システムを大規模に構築することができます。
CUDA™-X と NVIDIA AI で高速化するツールからなる NVIDIA NeMo Curator パイプラインは、100 PB 超のデータ処理でデータキュレーションのスピードを 20 倍にします。最適化には面倒な設定がなく、総所有コスト (TCO) を最小限に抑え、市場投入までの時間を短縮します。
Cosmos トークナイザーは、8 倍効率的な圧縮技術と 12 倍高速の処理スピードでビジュアル データを高忠実度のトークンに変換します。
NVIDIA NeMo™ は、フィジカル AI 向けのマルチモーダル生成 AI モデルを構築するためのアクセラレーテッド トレーニングとファインチューニングを備えています。
モデル
フィジカル AI 開発を目的に特化して設計された、物理を考慮した動画や世界の状態を生成するための事前学習済みモデル群。
モデル アーキテクチャ、開発リソース、可用性についてはこちらをご覧ください。
NVIDIA は、ロボティクスおよび自動運転車のエコシステムと協力し、フィジカル AI アプリケーションの特有の要件を反映するために、世界基盤モデルに基づいた一連のベンチマークを開発しています。
Cosmos ベンチマークは、次世代の世界モデルを評価するために設計されており、ロボティクスや自律システムに不可欠な 3D 一貫性や物理的整合性といった高度な基準を採用しています。
VideoLDM (VLDM) というビデオ生成のベースライン生成モデルと比較して、Cosmos の WFM (世界基盤モデル) は、幾何学的精度に優れ、Sampson エラーが低く、時間的安定性が向上しています。また、ベンチマークでは、重力や衝突ダイナミクスといった物理的な挙動に基づいて WFM が評価されます。
Cosmos の WFM (世界基盤モデル) は、視覚的一貫性において VLDM を一貫して上回り、ポーズ推定の成功率では最大 14 倍の向上を達成しています。拡散モデルはそのままの状態で高い忠実度を提供する一方で、自己回帰モデルはカスタム モデルにおいて優れた性能を発揮します。
ロボット、自動運転車、ビジョン AI の開発者が Cosmos を活用してその研究を前進させる様子をご覧ください。
Cosmos は、開発者が AI モデルのトレーニング用にカスタマイズされたデータセットを構築するのを支援します。自動運転車向けの雪道映像や、ロボティクス向けの忙しい倉庫の映像など、Cosmos は空間的および時間的パターンを理解することで、動画のタグ付けや検索を簡素化し、トレーニングデータの準備をより容易にします。
これにより、時間とコストを削減し、実世界での使用に非常に関連性が高く、影響力のある AI モデルを提供できます。
開発者は、自身の 3D シミュレーション データを活用して、フォトリアルな合成動画を生成できます。Omniverse を使用することで、モデルのトレーニングに必要な 3D 環境を作成できます。その後、3D シーンによって正確に制御されたフォトリアリスティックな動画を生成し、高度にカスタマイズされた合成データセットを作成できます。
Cosmos の世界基盤モデルは、アクションに基づく動画予測のためにファインチューニングされており、フィジカル AI システムの戦略を定義するポリシー モデルのトレーニングと評価をスケーラブルかつ再現性の高い形で可能にします。これにより、状態から行動へのマッピングが効率的に実現されます。開発者はこれらのモデルを使用することで、障害物の回避や物体操作といったタスクにおいて、リスクの高い実世界でのテストや複雑なシミュレーションへの依存を減らすことができます。これにより、性能を最適化し、ロボティクスや自動運転車などの実世界でのアプリケーションにおいて信頼性を確保します。
Cosmos は、フィジカル AI に高度な予測インテリジェンスを提供し、システムが将来のシナリオを予測し、より賢明な意思決定を行えるようにします。Cosmos は、過去のデータやテキスト プロンプトに基づいた予測動画を生成する「フォーサイト ジェネレーション (先見の明の生成)」を利用し、フィジカル AI が最適な行動を選択できるようにします。これにより、動的な環境における効率性、適応性、安全性が向上します。
NVIDIA Omniverse を使用することで、開発者は複数の Cosmos による結果をシミュレーションし、リアルタイムのシナリオを評価できます。これにより、意思決定が加速し、ロボティクスや自動運転車といった AI 駆動型システムを最適化できます。Cosmos と Omniverse を組み合わせることで、フィジカル AI モデルはすべての可能な未来の結果を探索し、複雑な環境で精度と信頼性を高める最適な経路を選択することが可能になります。
ロボティクス、自動運転車、ビジョン AI 業界のモデル開発者は、Cosmos を活用してフィジカル AI の開発を加速させています。
NVIDIA API カタログの世界基盤モデルをお試しください。あるいは、NVIDIA Cosmos を使用して世界モデルの構築を始めてください。
NVIDIA NeMo は、あらゆるプラットフォームで世界モデルをキュレート、トークナイズ、ファインチューニングするためのエンドツーエンド パイプラインを提供します。
NVIDIA NeMo Curator を動力とし、NVIDIA データ センター GPU 向けに最適化された高速のデータ処理/キュレーション パイプライン。
フィジカル AI 開発者は、NGC カタログと Hugging Face で利用可能な Cosmos の世界基盤モデルを今すぐ開始できます。また、NVIDIA NeMo で基盤モデルのファインチューニングを行うためのエンドツーエンドのパイプラインも提供しています。開発者は、GitHub と Hugging Face の /NVIDIA/cosmos-tokenizer から Cosmos トークナイザーを使用できます。
Cosmos 世界基盤モデルは NVIDIA Open Model License の下で誰もが利用できます。
はい。Cosmos では、NeMo によるファインチューニングがサポートされています。 LoRA や RLHF (人間のフィードバックによる強化学習) など、人気の手法を利用してモデルを効率的にトレーニングしたり、ファインチューニングしたりできます。 PyTorch を選択し、独自のデータセットを使用して WFM のトレーニングを続けることもできます。
はい。Cosmos を使用するとき、自分で選んだ基礎モデルやモデル アーキテクチャでゼロから構築できます。まず、ビデオ データの事前処理に NeMo Curator の使用から始めることができます。その後、Cosmos トークナイザーでデータを圧縮、デコードし、データが処理されたら、NVIDIA NeMo を使用してモデルをトレーニングしたり、ファインチューニングしたりできます。
NIM マイクロサービスを使用し、クラウド、データ センター、ワークステーションをまたいでアプリケーション内でフィジカル AI モデルを簡単に統合できます。
NVIDIA DGX Cloud を使用すれば、AI モデルをトレーニングし、どこにでも大規模に展開できます。
Cosmos と Cosmos Nemotron はいずれも、物理世界からとられた映像を処理し、解釈するように作られた NVIDIA モデル群に属します。
Cosmos モデルは、物理を考慮した動画を予測・生成することに特化した世界基盤モデルであり、仮想環境の将来の状態をシミュレーションし、理解するのに役立ちます。一方で、Cosmos Nemotron モデルは、画像や動画のクエリ処理や要約に特化したビジョン ランゲージ モデルであり、物理的および仮想的な視覚データを AI が解釈し、それに応答する能力を提供します。
この 2 つが互いに補完することで、映像理解に基づいた高度な AI 機能が可能になります。