世界モデルとは、物理法則や空間特性などの現実世界の力学を理解する生成 AI モデルです。 テキスト、画像、動画、動きなどの入力データを使用して動画を生成します。 感覚データから運動、力、空間的な関係などの力学を表現し、予測する方法を学ぶことで、現実世界の環境の物理的特性を理解します。
基盤モデルは、入力データに基づいて新しいデータを生成するために、大規模なラベルなしデータセットでトレーニングされた AI ニューラル ネットワークですその汎用性により、幅広い生成 AI アプリケーションの開発を劇的に加速することができます。開発者はこれらの事前学習済みモデルを、より小規模でタスクに特化したデータセットでファインチューニングし、独自のドメイン固有モデルを構築できます。
開発者は基盤モデルのパワーを活用し、工場ロボット、倉庫自動化、高速道路や困難な地形を走行する自動運転車など、産業やロボティクスでの活用における AI モデルをトレーニングするための高品質なデータを生成することができます。フィジカル AI システムは、現実的なシミュレーションを通じて学習するために、大規模で、視覚的、空間的、物理的に正確な大規模データを必要とします。世界基盤モデルは、このデータを大規模に効率的に生成します。
WMF にはさまざまなタイプがあります。
世界モデルは 3D シミュレーターと組み合わせて使用することで、自律マシンのトレーニングを安全に効率化して拡張するための仮想環境として機能します。 動画データを生成、キュレーション、エンコードする機能により、開発者は自律マシンが動的な環境を感知、認識そして相互作用する能力を向上させるためのトレーニングをより効果的に実施することができます。
WFM は自動運転車 (AV: Autonomous Vehicle) パイプラインのあらゆる段階で大きなメリットをもたらします。 事前にラベル付けされ、エンコードされた動画データを活用することで、開発者は周囲の車両、歩行者、物体の意図を理解できるように、AV スタックを厳選し、トレーニングすることができます。このモデルは、さまざまな交通パターン、道路状況、天候、照明などの新しいシナリオを生成して、トレーニングで生じるギャップを埋め、テストの範囲を拡大することもできます。 また、テキストと視覚的な入力に基づいて予測的な動画シミュレーションを作成し、仮想トレーニングとテストを加速することもできます。
WFM はフォトリアルな合成データと予測可能な世界の状態を生成し、ロボットの空間認知能力の開発を支援します。物理的なシミュレーターを用いた仮想シミュレーションにより、このモデルはロボットがタスクを安全かつ効率的に練習し、迅速なテストとトレーニングを通じて学習を加速させることができます。ロボットがさまざまなデータや経験から学習することで、新しい状況に適応できるよう支援します。
改良された世界モデルは、物体の相互作用をシミュレーションし、人間の挙動を予測し、ロボットが正確に目標を達成できるように誘導することで計画を強化します。また、複数のシミュレーションを実行し、フィードバックから学習することで意思決定も改善します。仮想シミュレーションを使用することで、開発者は実環境のテストにおかるリスクを削減し、時間、コスト、リソースを節約できます。
自動運転車など、フィジカル AI システム向けの世界モデルを構築するには、多大なリソースと時間を要します。まず、世界中でさまざまな地形や条件下で走行して現実世界のデータセットを収集するには、ペタバイト規模のデータと数百万時間分のシミュレーション映像が必要になります。次に、このデータのフィルタリングと準備には数千時間にも及ぶ人手による作業が必要です。最終的に、これらの大規模モデルのトレーニングには、GPU コンピューティングに数百万ドルもの費用がかかり、多くの GPU を必要とします。
WFM は世界の基礎的な構造と力学を捉えることを目的としており、より洗練された推論および計画能力を実現します。膨大な量の厳選された高品質な現実世界のデータでトレーニングされたこれらのニューラル ネットワークは、フィジカル AI システムのための視覚的、空間的、物理的に認識された合成データ ジェネレーターとして機能します。
世界モデルにより、開発者は生成 AI を 2D ソフトウェアの限界を超えて拡張し、その機能を現実世界に導入しながら、現実世界でのトライアルの必要性を減らすことができます。AI のパワーは従来、デジタル分野で活用されてきましたが、世界モデルは具体的な現実世界における体験のために AI を解き放つでしょう。
世界モデルは、物体の動きや相互作用の基本原理を理解することで、より現実的で物理的に正確なビジュアル コンテンツを作成できます。このモデルは、ビデオ ゲームやインタラクティブな体験など、多くの用途向けにオンデマンドでリアルな 3D ワールドを生成できます。場合によっては、非常に高い精度の世界モデルからの出力を合成データ形式で取り出して、認識 AI のトレーニングに活用することもできます。
現在の AI 動画生成では複雑なシーンに対応することが難しく、原因と結果に対する理解も限られています。 しかし、世界モデルを 3D シミュレーション プラットフォームやソフトウェアと組み合わせることで、画家がキャンバスに筆跡を残すシミュレーションなど、視覚的なシナリオにおいて、原因と結果に対するより深い理解を示す可能性を示しています。
WFM は、現実世界の行動をシミュレーションし、結果を予測することで、フィジカル AI システムの学習、適応、より適切な意思決定を支援します。これらにより、システムはさまざまなシナリオを「想像」し、行動をテストし、仮想フィードバックから学習できるようになります。これは自動運転車がシミュレーターで急な障害物や悪天候に対処する練習をするようなものです。起こりうる結果を予測することで、自律マシンは現実世界のトライアルを必要とせずに、よりスマートな行動を計画し、時間を節約し、リスクを軽減できます。
世界モデルは、大規模言語モデル (LLM) と組み合わせることで、AI が自然言語の指示を理解し、より効果的に対話するのを支援します。例えば、配送ロボットは「最速のルートを探して」という音声リクエストを解釈して、さまざまな経路ををシミュレーションして最適な経路を決定できます。
この予測インテリジェンスにより、フィジカル AI モデルはより効率的で、適応性が高く、安全なものとなり、ロボット、自動運転車、産業用機械が複雑な現実世界の環境においてよりスマートに動作できるようになります。
ポリシー学習には、最善のアクションを見つけるために戦略を模索することが必要です。ポリシー モデルは、ロボットのようなシステムが、現在の状態と世界全般の状態に基づいて最善のアクションを決定するのに役立ちます。 システムの状態 (位置など) をアクション (動きなど) と結び付け、目標を達成したり、パフォーマンスを向上させたりします。 ポリシー モデルは、モデルをファインチューニングすることで導き出すことができます。ポリシー モデルは、やり取りやフィードバックを通じて学習する強化学習で一般的に使用されます。
論理的に推論する WFM を使用して合成データをフィルタリングし批評することで、品質と関連性を迅速に改善します。
世界モデルは戦略的な探索を可能にし、最も効果的な成果に報います。報酬モジュールを追加してシミュレーションを実行し、リソースの使用状況を追跡するコスト モデルを構築することで、現実世界のタスクにおけるパフォーマンスと効率の両方を向上させます。
世界モデルでは、3D 環境の動的な挙動を学習するために、広範な現実世界のデータ、特に動画や画像を必要とします。数十億のパラメーターを持つニューラル ネットワークがこのデータを解析し、環境の隠されている状態または内部の表現を作成および更新します。 これにより、ロボットは、動画から動きや奥行きを認識したり、隠れた物体を予測したり、起こり得る事象に備えたりするなど、変化を理解し予測することができます。ディープラーニングによる隠れ状態の継続的な改善により、世界モデルは新しいシナリオに適応できるようになります。
世界モデルを構築する際に必要となる主要コンポーネントをいくつか紹介します。
データ キュレーションは、世界モデルの事前トレーニングと継続トレーニングにおいて重要なステップであり、特に大規模なマルチモダリティ (複数の種類のデータ) を扱う場合に重要です。精度の高いモデルのトレーニングやファインチューニングを行う際に高い品質を確保するために、画像や動画データのフィルタリング、アノテーション、分類、重複排除などの処理を行います。
動画の処理では、まず動画をより小さなセグメントに分割してトランスコーディングし、次に品質フィルタリングを行って高い品質のデータを保持します。最先端の視覚言語モデルを使用して、主要なオブジェクトやアクションに注釈を付け、さらに動画埋め込みを用いて意味的な重複削除を行い、冗長なデータを削除します。
その後、データはトレーニングのための整理され、クリーニングされます。このプロセスを通して、効率的なデータ オーケストレーションが行われ、GPU 間の円滑なデータ フローが確保され、大規模なデータ処理と、高いスループットが実現します。
トークン化は、高次元の視覚データをトークンと呼ばれるより小さな単位に変換し、機械学習の処理を容易にします。 トークナイザーは、画像や動画内のピクセルの冗長性をコンパクトで意味的なトークンへと変換し、大規模生成モデルの効率的なトレーニングや限られたリソースでの推論を可能にします。主に 2 つの方法があります。
このアプローチは、モデルの学習速度とパフォーマンスを向上させます。
基盤モデルは、さまざまな生成タスクを実行するために、膨大なラベルなしデータセットでトレーニングされた AI ニューラル ネットワークです。開発者は、モデル アーキテクチャをゼロからトレーニングすることも、追加データを使用して下流タスクのために事前学習済みの基盤モデルをファインチューニングすることもできます。
WFM は、物理環境をシミュレーションするために広範な視覚データセットでトレーニングされた汎用 AI システムとして機能します。ファインチューニングされたフレームワークを使用することで、これらのモデルはロボティクス、自律システム、その他のフィジカル AI 分野における精密アプリケーション向けに特化することができます。モデルをファインチューニングするには複数のアプローチがあります。
エンドツーエンドの開発プロセスを簡単に始め、効率化に進めるために、開発者は、データ準備、モデルのトレーニング、最適化、パフォーマンス評価、展開を行うためのライブラリ、SDK、ツールが含まれるトレーニング フレームワークを活用することができます。
リーズニング モデルは、事前学習済みの大規模言語モデルまたは大規模ビジョン言語モデルをファインチューニングすることでトレーニングされます。また、強化学習を使用して決定に至る前に自ら分析し論理的な推論も行います。
強化学習 (RL: Reinforcement Learning) とは、AI エージェントが環境と相互作用し、その行動に基づいて報酬やペナルティを受け取りながら学習する機械学習アプローチです。時間の経過とともに意思決定を最適化し、最善の結果を達成します。
強化学習により、WFM は適応、計画、情報に基づいた意思決定が可能になり、複雑なタスクを通じて論理的に推論する必要のあるロボティクス、自律システム、AI アシスタントにとって不可欠なものとなっています。
強化学習の詳細はこちらをご覧ください。