世界モデルとは?

世界モデルは、物理学や空間特性などの実世界の力学を理解するニューラル ネットワークです。 テキスト、画像、動画、動作などの入力データを使用して、現実的な物理環境をシミュレーションする動画を生成できます。フィジカル AI 開発者は、世界モデルを使用して独自の合成データや下流の AI モデルを生成し、ロボット自動運転車をトレーニングすることができます。

世界モデルの構築方法

自動運転車などのフィジカル AI システム向けに世界モデルを構築するには、実世界の広範なデータ、特に多様な地形や条件からの動画や画像が必要です。 このデータを収集するには、ペタバイト単位の情報と数百万時間分のシミュレーション映像、そしてフィルタリングとデータ準備に数千時間の人的労力が必要です。数十億のパラメーターを持つニューラル ネットワークは、この膨大なデータセットを分析して 3D 環境の内部表現の作成と更新、ロボットによる動的な挙動の理解、動きや深度などの変化の予測を行い、起こり得るイベントへの対応準備をできるようにします。ディープラーニングによる継続的な改善により、世界モデルは新しいシナリオに適応し、複雑な物理的相互作用を理解することができます。 これらの大規模モデルのトレーニングには、GPU コンピューティング リソースに数百万ドルもの費用がかかります。 

世界モデルにはさまざまなタイプがあります。

  • 予測モデル — これらのモデルは、テキスト プロンプト、入力動画、または 2 つの画像間の補間により、世界の生成を予測し、連続的なモーションを合成します。 現実的で時間的に一貫性のあるシーン生成を可能にし、動画合成、アニメーション、ロボットの動作計画などのアプリケーションに有用です。
  • スタイル転送モデル — このモデルは ControlNet を使用し、特定の入力に基づいて出力をガイドします。ControlNet は、セグメンテーション マップ、LiDAR スキャン、深度マップ、エッジ検出などの構造化されたガイダンスに基づきモデルの生成を条件付けるモデル ネットワークです。入力指示を視覚的にミラーリングすることで、このモデルはレイアウトと動きを制御しながら、テキスト プロンプトに基づいた多様でフォトリアルな結果を生成することができます。これにより、構造化された画像やビデオの合成を必要とするアプリケーション、例えばデジタル ツインのシミュレーションや環境再構築などに役立ちます。
  • リーズニング モデル — このモデルは、マルチモーダル入力に対応し、時間と空間で分析します。強化学習に基づく思考連鎖アプローチを活用して、状況を把握し、最善の行動を決定します。これらのモデルにより、AI は現実のデータと合成データの区別、ロボット用の有用なトレーニング データの選択、ロボットの動作予測、自律システムのための物流の最適化など、複雑なタスクに対応できます。

NVIDIA Cosmos™ モデルなどの世界基盤モデル (WFM) は、基盤モデルのスケールと汎用性の要件を満たす世界モデルの特化型です。大規模なラベルなしデータセットでトレーニングされたこれらのニューラル ネットワークは、幅広いフィジカル AI タスクに適応することができます。 汎用性により、開発者がより小規模でタスク固有のデータセットを事後トレーニングできる事前トレーニング済みの基盤モデルとしてサービングすることで、さまざまなフィジカル AI アプリケーションの開発を大幅に高速化できます。

これらの WFM により、開発者は生成 AI を 2D ソフトウェアの制限を超えて拡張し、その機能を実世界に導入しながら、実世界での試験の必要性を減らすことができます。 AI のパワーは従来、デジタル分野で活用されてきましたが、世界モデルは具体的な現実世界における体験のために AI を解き放つでしょう。

世界モデルを構築する際に必要となる主要コンポーネントをいくつか紹介します。

データ処理

データ キュレーションは、世界モデルの事前トレーニングと継続トレーニングにおいて重要なステップであり、特に大規模なマルチモダリティ (複数の種類のデータ) を扱う場合に重要です。精度の高いモデルのトレーニングや事後トレーニングを行う際に高い品質を確保するために、画像や動画データのフィルタリング、アノテーション、分類、重複排除などの処理を行います。

動画の処理では、まず動画をより小さなセグメントに分割してトランスコーディングし、次に品質フィルタリングを行って高い品質のデータを保持します。最先端の視覚言語モデルを使用して、主要なオブジェクトやアクションに注釈を付け、さらに動画埋め込みを用いて意味的な重複削除を行い、冗長なデータを削除します。

その後、データはトレーニングのための整理され、クリーニングされます。このプロセスを通して、効率的なデータ オーケストレーションが行われ、GPU 間の円滑なデータ フローが確保され、大規模なデータ処理と、高いスループットが実現します。

データがキュレーションされると、開発者はそのデータから検索して特定のテスト ケースのシナリオを見つける必要があります。これらのデータセットの規模を考えると、このプロセスは至難の業と言えるでしょう。しかし、世界モデルからトレーニングされた強力な埋め込みモデルにより、開発者は迅速かつ簡単にセマンティック検索を実行でき、対象となるシナリオを検索して、数年から数日までの事後トレーニング サイクルを高速化できます。

トークン化

トークン化は、高次元の視覚データをトークンと呼ばれるより小さな単位に変換し、機械学習の処理を容易にします。 トークナイザーは、画像やビデオ内のピクセルの冗長性をコンパクトで意味的なトークンへと変換し、大規模生成モデルの効率的なトレーニングや限られたリソースでの推論を可能にします。主に 2 つの方法があります。

  • 離散トークン化: 画像や動画を整数として表現します。
  • 連続トークン化: 画像や動画を連続ベクトルとして表現します。

このアプローチは、モデルの学習速度とパフォーマンスを向上させます。

世界モデルの事後トレーニング

開発者は、世界モデル アーキテクチャをゼロからトレーニングさせることや、追加データを使用して下流のタスク向けに事前トレーニング済みの基盤モデルを事後トレーニングさせることもできます。

WFM は、物理環境をシミュレーションするために広範な視覚データセットでトレーニングされた汎用 AI システムとして機能します。事後トレーニングされたフレームワークを使用することで、これらのモデルはロボティクス、自律システム、その他のフィジカル AI 分野における精密アプリケーション向けに特化することができます。モデルを事後トレーニングするには複数のアプローチがあります。 

  • 教師なし事後トレーニング — ラベルのないデータを使用してモデルを適応させ、新しいデータセットから表現やパターンを学習できるようにします。この手法は、幅広い一般化とドメイン適応に有用です。
  • 教師あり事後トレーニング — ラベル付きデータセットを使用し、モデルがタスク固有の機能を学ぶように明示的に指導されます。このアプローチは意気決定の強化、構造化パターン認識の改善、最終的にはより複雑な AI アプリケーションの論理的に推論する能力を開発します。

エンドツーエンドの開発プロセスを簡単に始め、効率化に進めるために、開発者は、データ準備、モデルのトレーニング、最適化、パフォーマンス評価、展開を行うためのライブラリ、SDK、ツールが含まれるトレーニング フレームワークを活用することができます。

強化学習

リーズニング モデルは、事前トレーニング済みの大規模言語モデルまたは大規模視覚言語モデルを事後トレーニングしたものです。また、強化学習を活用して、意思決定の前に自ら分析とリーズニングを行います。

強化学習 (RL: Reinforcement Learning) は、AI エージェントが環境と相互作用し、行動に基づいて報酬やペナルティを受け取ることで学習する機械学習のアプローチです。 時間の経過とともに意思決定を最適化し、最善の結果を達成します。

RL により、WFM は適応、計画、情報に基づいた意思決定が可能になり、複雑なタスクを通じて論理的に推論する必要のあるロボティクス、自律システム、AI アシスタントにとって不可欠なものとなっています。

世界モデルの利点とは

世界モデルは、空間的関係と三次元環境における物理的挙動の深い理解により、AI の機能を拡張します。 これにより、複雑なシーンで物体がどのように移動し、相互作用するかを予測するなど、現実的な因果シナリオをシミュレーションすることができます。

開発者は、基盤モデルの力を活用して、工場ロボット、倉庫の自動化、高速道路や過酷な地形で走行する自動運転車など、産業用およびロボティクス分野の AI モデル トレーニング用に高品質なデータを生成できます。 フィジカル AI システムは、現実的なシミュレーションを通じて学習するために、大規模で、視覚的、空間的、物理的に正確な大規模データを必要とします。世界モデルは、多数のアプリケーション向けにこのデータを大規模に効率的に生成できます。

リアルなビデオ生成

世界モデルは、物体の動きや相互作用の基本原理を理解することで、より現実的で物理的に正確なビジュアル コンテンツを作成できます。場合によっては、非常に高い精度の世界モデルからの出力を合成データ形式で取り出して、認識 AI のトレーニングに活用することもできます。

現在の AI ビデオ生成では複雑なシーンに対応することが難しく、原因と結果の関係に対する理解も限られています。 しかし、3D シミュレーション プラットフォームやソフトウェアと組み合わせた世界モデルは、瓦礫で覆われた重い物体を拾う産業ロボットのシミュレーションなど、視覚的なシナリオで原因と結果のより深い理解を示す可能性を示しています。

予測インテリジェンス

世界モデルは、現実世界の行動をシミュレーションし、結果を予測することで、フィジカル AI システムの学習、適応、より適切な意思決定を支援します。これにより、システムはさまざまなシナリオを「想像」して、動作をテストし、仮想フィードバックから学習できるようになります。これは自動運転車がシミュレーターで突然の障害や悪天候に対処する練習をしているのと同様です。起こりうる結果を予測することで、自律マシンは現実世界のトライアルを必要とせずに、よりスマートな行動を計画し、時間を節約し、リスクを軽減できます。

世界モデルは、大規模言語モデル (LLM) と組み合わせることで、AI が自然言語の指示を理解し、より効果的に対話するのを支援します。例えば、配送ロボットは「最速のルートを探して」という音声リクエストを解釈して、さまざまな経路ををシミュレーションして最適な経路を決定できます。

この予測インテリジェンスにより、フィジカル AI モデルはより効率的で、適応性が高く、安全なものとなり、ロボット、自動運転車、インテリジェントな交通システム、産業用機械が複雑な現実世界の環境においてよりスマートに動作できるようになります。

ポリシー学習を改善

ポリシー学習とは、最も効果的な行動を決定するための戦略を探索するプロセスです。 ポリシー モデルは、ロボットなどのシステムが、現在の状態や世界の状況に基づいて最善の行動を決定するのに役立ちます。 システムの状態 (位置など) をアクション (動きなど) と結び付け、目標を達成したり、パフォーマンスを向上させたりします。 ポリシー モデルは、モデルのポストトレーニングによって導出できます。ポリシー モデルは、やり取りやフィードバックを通じて学習する RL で一般的に使用されます。

効率、精度、実現可能性の最適化

論理的に推論する世界モデルを使用して合成データをフィルタリングし批評することで、品質と関連性を迅速に改善します。

世界モデルは戦略的な探索を可能にし、最も効果的な成果に報います。報酬モジュールを追加してシミュレーションを実行し、リソースの使用状況を追跡するコスト モデルを構築することで、現実世界のタスクにおけるパフォーマンスと効率の両方を向上させます。

世界モデルの現実世界でのアプリケーションとは?

世界モデルは 3D シミュレーターと組み合わせて使用することで、自律マシンのトレーニングを安全に効率化して拡張するための仮想環境として機能します。ビデオ データを生成、キュレーション、エンコードする機能により、開発者は自律マシンが動的な環境を感知、認識そして相互作用する能力を向上させるためのトレーニングをより効果的に実施することができます。

自動運転車

世界モデルは、自動運転車 (AV) パイプラインのあらゆる段階に大きな利益をもたらします。 事前にラベル付けされ、エンコードされたビデオ データを活用することで、開発者は周囲の車両、歩行者、物体の挙動を理解できるように、AV スタックを厳選し、トレーニングすることができます。これらのモデルは、テキストとビジュアル入力に基づいて予測的な動画シミュレーションを作成することで、さまざまな交通パターン、道路状況、天候、照明などの新しいシナリオを生成し、テストと検証を高速化する推論ビジョン言語行動モデルをポストトレーニングさせることができます。

ロボティクス

世界モデルはフォトリアルな合成データと予測可能な世界の状態を生成し、ロボットの空間認知能力の開発を支援します。物理的なシミュレーターを用いた仮想シミュレーションにより、このモデルはロボットがタスクを安全かつ効率的に練習し、迅速なテストとトレーニングを通じて学習を加速させることができます。ロボットがさまざまなデータや経験から学習することで、新しい状況に適応できるよう支援します。

改良された世界モデルは、物体の相互作用をシミュレーションし、人間の挙動を予測し、ロボットが正確に目標を達成できるように誘導することで計画を強化します。また、複数のシミュレーションを実行し、フィードバックから学ぶことで意思決定を強化します。 仮想シミュレーションを使用することで、開発者は実環境のテストにおけるリスクを軽減し、時間、コスト、リソースを削減できます。

ビデオ解析

豊富なマルチモーダル データと高度なリーズニング機能でトレーニングされた世界モデルは、膨大な量の録画された動画およびライブ動画で複雑な動画分析を実行できます。 これらのモデルは、自然言語による Q&A、自動要約、物体検出、イベントのローカライズ、およびビデオ内の視覚コンテンツの文脈理解を可能にし、従来のコンピューター ビジョンの手法を凌駕する機能を提供します。世界モデルはまた、稀なケースにおけるフォトリアルな合成データを生成し、重要なインシデントを検出する AI モデルのトレーニングを向上させます。

ビデオ解析向け世界モデルの一般的な用途は、産業分野とスマート シティの両方で、安全性の向上と運用効率の改善を目的として活用されています。  例えば、産業安全における怪我のリスクや危険な行動の特定、迅速な事故調査のための詳細な因果関係の理解の提供、スマート シティにおける交通状況、群衆の流れ、公共の安全に関する事故、環境リスクの監視、および品質管理のための視覚検査による製造ライン上の欠陥や不具合の特定などが挙げられます。

世界モデルの活用を始める方法

NVIDIA Cosmos

Cosmos は、フィジカル AI システムの開発を高速化するために特別に構築された、最先端の生成 WFM、高度なトークナイザー、ガードレール、高速化されたデータ処理とキュレーション パイプラインのプラットフォームです。

Cosmos 世界基盤モデル

Cosmos WFM は、フィジカル AI 開発のために構築され、物理を考慮した動画や世界の再現を生成するための事前学習済みモデル群です。

NVIDIA Isaac GR00T

Isaac GR00T は、ヒューマノイド ロボットの開発を加速するために設計された積極的な研究の取り組みであり開発プラットフォームです。これには、ロボティクス基盤モデル、ワークフロー、シミュレーション ツール一式が含まれています。